zpwiki/pages/topics/named-entity/README.md
2020-07-01 18:39:30 +02:00

1.7 KiB

title
Pomenované entity

Pomenované entity

Príprava dát

Repozitár annotation/wikicorpus

Vstup: Wiki XML dump

Výstup: Množina dokumentov pre anotáciu

urobené:

  • Parsovanie XML Wiki DUMP

urobiť:

  • Skript pre extrakciu paragrafov.
  • Filter pre vyradenie článkov a paragrafov.
  • Ručný výber článkov.

Príprava anotačnej schémy

Vstup: dataset na anotovanie

Výstup: nasadená a pripravená aplikácia na anotovanie

Repozitár annotation/ner

urobené:

urobiť:

  • Anotačný manuál
  • Sada značiek na anotáciu
  • Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
  • Pripraviť podrobné anotovanie "development" množiny

Prípravná anotačná dávka

Repozitár annotation/database_app

Vstup:

  • pripravená aplikácia pre anotovanie

Výstup:

  • prvé anotované dáta
  • aplikácia pre analýzu anotovaných dát
  • skript pre spájanie a filtrovanie anotovaných dát

urobené:

prebieha:

  • aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko

urobiť:

  • Anotácia dát
  • Príprava skriptu na čistenie anotovaných dát

Produkčná anotačná dávka

Vstup: Pripravená aplikácia a dáta na anotovanie

Výstup:

  • Anotované dáta
  • korpus

treba urobiť:

  • Motivácia študentov
  • Anotácia dát
  • Analýza anotovaných dát
  • tvorba korpusu anotovaných dát