History

dano 518e06d192 Update 'pages/topics/named-entity/README.md'		2020-08-11 10:20:33 +00:00
..
README.md	Update 'pages/topics/named-entity/README.md'	2020-08-11 10:20:33 +00:00

title
Pomenované entity

Pomenované entity

Stretnutia

11.8.2020

Rozdelíme wikicorpus na 100 častí.

Nebudeme riešiť doménový bias vo wikipédii.

Budeme riešiť bias na dĺžku článkov.

Tagová značka asi: LOC, MISC, ORG, PER.

Peter sa pozrie na wikiextraktor.

Daniel:

vyrieši šablóny
vypočíta štatistiky o dĺžke paragrafov
navrhne pravidlo na ohodnotenie kvality článku, Kvalita článku závisí na dĺžke dobrých paragrafov a dĺžke celého článku.

Vstup: Wiki XML dump

Výstup: Množina dokumentov pre anotáciu

urobené:

urobiť:

Vstup: dataset na anotovanie

Výstup: nasadená a pripravená aplikácia na anotovanie

urobené:

urobiť:

Anotačný manuál
Sada značiek na anotáciu
Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
Pripraviť podrobné anotovanie "development" množiny

Vstup:

Výstup:

urobené:

nasadenie aplikácie pre analýzu anotovaných dát http://askner.tukekemt.xyz (Daniel Hládek)

prebieha:

aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko (Tomáš Kuchárik)

urobiť:

Vstup: Pripravená aplikácia a dáta na anotovanie

Výstup:

treba urobiť: