forked from KEMT/zpwiki
.. | ||
README.md |
title |
---|
Pomenované entity |
Pomenované entity
Príprava dát
Vstup: Wiki XML dump Výstup: Korpus dokumentov pre anotáciu
urobené:
- Parsovanie XML Wiki DUMP https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/wikicorpus
urobiť:
- Skript pre extrakciu paragrafov.
- Filter pre vyradenie článkov a paragrafov.
- Ručný výber článkov.
Príprava anotačnej schémy
Výstup: nasadená a pripravená aplikácia na anotovanie
urobené:
- Deploymment Prodigy http://skner.tukekemt.xyz
- Konverzia dát do Prodigy https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/ner
urobiť:
- Anotačný manuál
- Sada značiek na anotáciu
- Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
Prípravná anotačná dávka
urobené:
- nasadenie aplikácie pre analýzu anotovaných dát http://aksner.tukekemt.xyz
https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/database_app
prebieha:
- aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko
urobiť:
- Anotácia dát
- Príprava skriptu na čistenie anotovaných dát
Produkčná anotačná dávka
treba urobiť:
- Motivácia študentov
- Anotácia dát
- Analýza anotovaných dát
- tvorba korpusu anotovaných dát