forked from KEMT/zpwiki
		
	| .. | ||
| README.md | ||
| title | 
|---|
| Pomenované entity | 
Pomenované entity
Stretnutia
11.8.2020
Rozdelíme wikicorpus na 100 častí.
Nebudeme riešiť doménový bias vo wikipédii.
Budeme riešiť bias na dĺžku článkov.
Tagová značka asi: LOC, MISC, ORG, PER.
Peter sa pozrie na wikiextraktor.
Daniel:
- vyrieši šablóny
 - vypočíta štatistiky o dĺžke paragrafov
 - navrhne pravidlo na ohodnotenie kvality článku, Kvalita článku závisí na dĺžke dobrých paragrafov a dĺžke celého článku.
 
Úlohy
Príprava dát
Repozitár annotation/wikicorpus
Vstup: Wiki XML dump
Výstup: Množina dokumentov pre anotáciu
urobené:
- Parsovanie XML Wiki DUMP
 - Skript pre extrakciu paragrafov.
 
urobiť:
- Filter pre vyradenie článkov a paragrafov.
 - Ručný výber článkov.
 
Príprava anotačnej schémy
Vstup: dataset na anotovanie
Výstup: nasadená a pripravená aplikácia na anotovanie
urobené:
- Anotačný recept (Jakub Maruniak)
 - Deploymment Prodigy (Daniel Hládek)
 - Konverzia dát do Prodigy (Jakub Maruniak)
 
urobiť:
- Anotačný manuál
 - Sada značiek na anotáciu
 - Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
 - Pripraviť podrobné anotovanie "development" množiny
 
Prípravná anotačná dávka
Repozitár annotation/database_app
Vstup:
- pripravená aplikácia pre anotovanie
 
Výstup:
- prvé anotované dáta
 - aplikácia pre analýzu anotovaných dát
 - skript pre spájanie a filtrovanie anotovaných dát
 
urobené:
- nasadenie aplikácie pre analýzu anotovaných dát http://askner.tukekemt.xyz (Daniel Hládek)
 
prebieha:
- aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko (Tomáš Kuchárik)
 
urobiť:
- Anotácia dát
 - Príprava skriptu na čistenie anotovaných dát
 
Produkčná anotačná dávka
Vstup: Pripravená aplikácia a dáta na anotovanie
Výstup:
- Anotované dáta
 - korpus
 
treba urobiť:
- Motivácia študentov
 - Anotácia dát
 - Analýza anotovaných dát
 - tvorba korpusu anotovaných dát
 - Validácia anotovaných dát (anotačná schéma pre validáciu?)