History

Daniel Hladek bc76d31a90 zz		2020-10-01 16:05:57 +02:00
..
README.md	zz	2020-10-01 16:05:57 +02:00

README.md

title

published

taxonomy

Pomenované entity

true

Pomenované entity

Stretnutia

11.8.2020

Rozdelíme wikicorpus na 100 častí.

Nebudeme riešiť doménový bias vo wikipédii.

Budeme riešiť bias na dĺžku článkov.

Tagová značka asi: LOC, MISC, ORG, PER.

Peter sa pozrie na wikiextraktor.

Daniel:

vyrieši šablóny
vypočíta štatistiky o dĺžke paragrafov
navrhne pravidlo na ohodnotenie kvality článku, Kvalita článku závisí na dĺžke dobrých paragrafov a dĺžke celého článku.

Úlohy

Príprava dát

Repozitár annotation/wikicorpus

Vstup: Wiki XML dump

Výstup: Množina dokumentov pre anotáciu

urobené:

Parsovanie XML Wiki DUMP
Skript pre extrakciu paragrafov.

urobiť:

Filter pre vyradenie článkov a paragrafov.
Ručný výber článkov.

Príprava anotačnej schémy

Vstup: dataset na anotovanie

Výstup: nasadená a pripravená aplikácia na anotovanie

Repozitár annotation/ner

urobené:

Anotačný recept (Jakub Maruniak)
Deploymment Prodigy (Daniel Hládek)
Konverzia dát do Prodigy (Jakub Maruniak)

urobiť:

Anotačný manuál
Sada značiek na anotáciu
Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
Pripraviť podrobné anotovanie "development" množiny

Prípravná anotačná dávka

Repozitár annotation/database_app

Vstup:

pripravená aplikácia pre anotovanie

Výstup:

prvé anotované dáta
aplikácia pre analýzu anotovaných dát
skript pre spájanie a filtrovanie anotovaných dát

urobené:

nasadenie aplikácie pre analýzu anotovaných dát http://askner.tukekemt.xyz (Daniel Hládek)

prebieha:

aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko (Tomáš Kuchárik)

urobiť:

Anotácia dát
Príprava skriptu na čistenie anotovaných dát

Produkčná anotačná dávka

Vstup: Pripravená aplikácia a dáta na anotovanie

Výstup:

Anotované dáta
korpus

treba urobiť:

Motivácia študentov
Anotácia dát
Analýza anotovaných dát
tvorba korpusu anotovaných dát
Validácia anotovaných dát (anotačná schéma pre validáciu?)