dmytro_ushatenko/pages/topics/named-entity/README.md
2020-10-01 16:05:57 +02:00

2.5 KiB

title published taxonomy
Pomenované entity true
category tag author
project
ner
nlp
Daniel Hladek

Pomenované entity

Stretnutia

11.8.2020

Rozdelíme wikicorpus na 100 častí.

Nebudeme riešiť doménový bias vo wikipédii.

Budeme riešiť bias na dĺžku článkov.

Tagová značka asi: LOC, MISC, ORG, PER.

Peter sa pozrie na wikiextraktor.

Daniel:

  • vyrieši šablóny
  • vypočíta štatistiky o dĺžke paragrafov
  • navrhne pravidlo na ohodnotenie kvality článku, Kvalita článku závisí na dĺžke dobrých paragrafov a dĺžke celého článku.

Úlohy

Príprava dát

Repozitár annotation/wikicorpus

Vstup: Wiki XML dump

Výstup: Množina dokumentov pre anotáciu

urobené:

  • Parsovanie XML Wiki DUMP
  • Skript pre extrakciu paragrafov.

urobiť:

  • Filter pre vyradenie článkov a paragrafov.
  • Ručný výber článkov.

Príprava anotačnej schémy

Vstup: dataset na anotovanie

Výstup: nasadená a pripravená aplikácia na anotovanie

Repozitár annotation/ner

urobené:

  • Anotačný recept (Jakub Maruniak)
  • Deploymment Prodigy (Daniel Hládek)
  • Konverzia dát do Prodigy (Jakub Maruniak)

urobiť:

  • Anotačný manuál
  • Sada značiek na anotáciu
  • Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
  • Pripraviť podrobné anotovanie "development" množiny

Prípravná anotačná dávka

Repozitár annotation/database_app

Vstup:

  • pripravená aplikácia pre anotovanie

Výstup:

  • prvé anotované dáta
  • aplikácia pre analýzu anotovaných dát
  • skript pre spájanie a filtrovanie anotovaných dát

urobené:

prebieha:

  • aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko (Tomáš Kuchárik)

urobiť:

  • Anotácia dát
  • Príprava skriptu na čistenie anotovaných dát

Produkčná anotačná dávka

Vstup: Pripravená aplikácia a dáta na anotovanie

Výstup:

  • Anotované dáta
  • korpus

treba urobiť:

  • Motivácia študentov
  • Anotácia dát
  • Analýza anotovaných dát
  • tvorba korpusu anotovaných dát
  • Validácia anotovaných dát (anotačná schéma pre validáciu?)