--- title: Pomenované entity published: true taxonomy: category: [project] tag: [ner,nlp] author: Daniel Hladek --- # Pomenované entity ## Stretnutia 11.8.2020 Rozdelíme wikicorpus na 100 častí. Nebudeme riešiť doménový bias vo wikipédii. Budeme riešiť bias na dĺžku článkov. Tagová značka asi: LOC, MISC, ORG, PER. Peter sa pozrie na wikiextraktor. Daniel: - vyrieši šablóny - vypočíta štatistiky o dĺžke paragrafov - navrhne pravidlo na ohodnotenie kvality článku, Kvalita článku závisí na dĺžke dobrých paragrafov a dĺžke celého článku. ## Úlohy ### Príprava dát [Repozitár annotation/wikicorpus](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/wikicorpus) Vstup: Wiki XML dump Výstup: Množina dokumentov pre anotáciu urobené: - Parsovanie XML Wiki DUMP - Skript pre extrakciu paragrafov. urobiť: - Filter pre vyradenie článkov a paragrafov. - Ručný výber článkov. ### Príprava anotačnej schémy Vstup: dataset na anotovanie Výstup: nasadená a pripravená aplikácia na anotovanie [Repozitár annotation/ner](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/ner) urobené: - Anotačný recept (Jakub Maruniak) - [Deploymment Prodigy](http://skner.tukekemt.xyz) (Daniel Hládek) - Konverzia dát do Prodigy (Jakub Maruniak) urobiť: - Anotačný manuál - Sada značiek na anotáciu - Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom. - Pripraviť podrobné anotovanie "development" množiny ### Prípravná anotačná dávka [Repozitár annotation/database_app](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/database_app) Vstup: - pripravená aplikácia pre anotovanie Výstup: - prvé anotované dáta - aplikácia pre analýzu anotovaných dát - skript pre spájanie a filtrovanie anotovaných dát urobené: - nasadenie aplikácie pre analýzu anotovaných dát http://askner.tukekemt.xyz (Daniel Hládek) prebieha: - aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko (Tomáš Kuchárik) urobiť: - Anotácia dát - Príprava skriptu na čistenie anotovaných dát ### Produkčná anotačná dávka Vstup: Pripravená aplikácia a dáta na anotovanie Výstup: - Anotované dáta - korpus treba urobiť: - Motivácia študentov - Anotácia dát - Analýza anotovaných dát - tvorba korpusu anotovaných dát - Validácia anotovaných dát (anotačná schéma pre validáciu?)