--- title: Pomenované entity --- # Pomenované entity ### Príprava dát Vstup: Wiki XML dump Výstup: Korpus dokumentov pre anotáciu urobené: - Parsovanie XML Wiki DUMP https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/wikicorpus urobiť: - Skript pre extrakciu paragrafov. - Filter pre vyradenie článkov a paragrafov. - Ručný výber článkov. ### Príprava anotačnej schémy Výstup: nasadená a pripravená aplikácia na anotovanie urobené: - Deploymment Prodigy http://skner.tukekemt.xyz - Konverzia dát do Prodigy https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/ner urobiť: - Anotačný manuál - Sada značiek na anotáciu - Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom. ### Prípravná anotačná dávka urobené: - nasadenie aplikácie pre analýzu anotovaných dát http://aksner.tukekemt.xyz https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/database_app prebieha: - aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko urobiť: - Anotácia dát - Príprava skriptu na čistenie anotovaných dát ### Produkčná anotačná dávka treba urobiť: - Motivácia študentov - Anotácia dát - Analýza anotovaných dát - tvorba korpusu anotovaných dát