forked from KEMT/zpwiki
1.9 KiB
1.9 KiB
title |
---|
Pomenované entity |
Pomenované entity
Príprava dát
Repozitár annotation/wikicorpus
Vstup: Wiki XML dump
Výstup: Množina dokumentov pre anotáciu
urobené:
- Parsovanie XML Wiki DUMP
urobiť:
- Skript pre extrakciu paragrafov.
- Filter pre vyradenie článkov a paragrafov.
- Ručný výber článkov.
Príprava anotačnej schémy
Vstup: dataset na anotovanie
Výstup: nasadená a pripravená aplikácia na anotovanie
urobené:
- Anotačný recept (Jakub Maruniak)
- Deploymment Prodigy (Daniel Hládek)
- Konverzia dát do Prodigy (Jakub Maruniak)
urobiť:
- Anotačný manuál
- Sada značiek na anotáciu
- Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
- Pripraviť podrobné anotovanie "development" množiny
Prípravná anotačná dávka
Repozitár annotation/database_app
Vstup:
- pripravená aplikácia pre anotovanie
Výstup:
- prvé anotované dáta
- aplikácia pre analýzu anotovaných dát
- skript pre spájanie a filtrovanie anotovaných dát
urobené:
- nasadenie aplikácie pre analýzu anotovaných dát http://askner.tukekemt.xyz (Daniel Hládek)
prebieha:
- aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko (Tomáš Kuchárik)
urobiť:
- Anotácia dát
- Príprava skriptu na čistenie anotovaných dát
Produkčná anotačná dávka
Vstup: Pripravená aplikácia a dáta na anotovanie
Výstup:
- Anotované dáta
- korpus
treba urobiť:
- Motivácia študentov
- Anotácia dát
- Analýza anotovaných dát
- tvorba korpusu anotovaných dát
- Validácia anotovaných dát (anotačná schéma pre validáciu?)