dmytro_ushatenko/pages/topics/named-entity/README.md

1.9 KiB

title
Pomenované entity

Pomenované entity

Príprava dát

Repozitár annotation/wikicorpus

Vstup: Wiki XML dump

Výstup: Množina dokumentov pre anotáciu

urobené:

  • Parsovanie XML Wiki DUMP

urobiť:

  • Skript pre extrakciu paragrafov.
  • Filter pre vyradenie článkov a paragrafov.
  • Ručný výber článkov.

Príprava anotačnej schémy

Vstup: dataset na anotovanie

Výstup: nasadená a pripravená aplikácia na anotovanie

Repozitár annotation/ner

urobené:

  • Anotačný recept (Jakub Maruniak)
  • Deploymment Prodigy (Daniel Hládek)
  • Konverzia dát do Prodigy (Jakub Maruniak)

urobiť:

  • Anotačný manuál
  • Sada značiek na anotáciu
  • Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
  • Pripraviť podrobné anotovanie "development" množiny

Prípravná anotačná dávka

Repozitár annotation/database_app

Vstup:

  • pripravená aplikácia pre anotovanie

Výstup:

  • prvé anotované dáta
  • aplikácia pre analýzu anotovaných dát
  • skript pre spájanie a filtrovanie anotovaných dát

urobené:

prebieha:

  • aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko (Tomáš Kuchárik)

urobiť:

  • Anotácia dát
  • Príprava skriptu na čistenie anotovaných dát

Produkčná anotačná dávka

Vstup: Pripravená aplikácia a dáta na anotovanie

Výstup:

  • Anotované dáta
  • korpus

treba urobiť:

  • Motivácia študentov
  • Anotácia dát
  • Analýza anotovaných dát
  • tvorba korpusu anotovaných dát
  • Validácia anotovaných dát (anotačná schéma pre validáciu?)