--- title: Pomenované entity --- # Pomenované entity ### Príprava dát [Repozitár annotation/wikicorpus](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/wikicorpus) Vstup: Wiki XML dump Výstup: Množina dokumentov pre anotáciu urobené: - Parsovanie XML Wiki DUMP urobiť: - Skript pre extrakciu paragrafov. - Filter pre vyradenie článkov a paragrafov. - Ručný výber článkov. ### Príprava anotačnej schémy Vstup: dataset na anotovanie Výstup: nasadená a pripravená aplikácia na anotovanie [Repozitár annotation/ner](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/ner) urobené: - [Deploymment Prodigy](http://skner.tukekemt.xyz) - Konverzia dát do Prodigy urobiť: - Anotačný manuál - Sada značiek na anotáciu - Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom. - Pripraviť podrobné anotovanie "development" množiny ### Prípravná anotačná dávka [Repozitár annotation/database_app](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/database_app) Vstup: - pripravená aplikácia pre anotovanie Výstup: - prvé anotované dáta - aplikácia pre analýzu anotovaných dát - skript pre spájanie a filtrovanie anotovaných dát urobené: - nasadenie aplikácie pre analýzu anotovaných dát http://askner.tukekemt.xyz prebieha: - aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko urobiť: - Anotácia dát - Príprava skriptu na čistenie anotovaných dát ### Produkčná anotačná dávka Vstup: Pripravená aplikácia a dáta na anotovanie Výstup: - Anotované dáta - korpus treba urobiť: - Motivácia študentov - Anotácia dát - Analýza anotovaných dát - tvorba korpusu anotovaných dát