forked from KEMT/zpwiki
66 lines
1.3 KiB
Markdown
66 lines
1.3 KiB
Markdown
---
|
|
title: Pomenované entity
|
|
---
|
|
|
|
|
|
# Pomenované entity
|
|
|
|
|
|
### Príprava dát
|
|
|
|
Vstup: Wiki XML dump
|
|
Výstup: Korpus dokumentov pre anotáciu
|
|
|
|
urobené:
|
|
|
|
- Parsovanie XML Wiki DUMP https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/wikicorpus
|
|
|
|
urobiť:
|
|
|
|
- Skript pre extrakciu paragrafov.
|
|
- Filter pre vyradenie článkov a paragrafov.
|
|
- Ručný výber článkov.
|
|
|
|
### Príprava anotačnej schémy
|
|
|
|
Výstup: nasadená a pripravená aplikácia na anotovanie
|
|
|
|
urobené:
|
|
|
|
- Deploymment Prodigy http://skner.tukekemt.xyz
|
|
- Konverzia dát do Prodigy https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/ner
|
|
|
|
urobiť:
|
|
|
|
- Anotačný manuál
|
|
- Sada značiek na anotáciu
|
|
- Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
|
|
|
|
### Prípravná anotačná dávka
|
|
|
|
urobené:
|
|
|
|
- nasadenie aplikácie pre analýzu anotovaných dát http://aksner.tukekemt.xyz
|
|
|
|
https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/database_app
|
|
|
|
prebieha:
|
|
|
|
- aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko
|
|
|
|
urobiť:
|
|
|
|
- Anotácia dát
|
|
- Príprava skriptu na čistenie anotovaných dát
|
|
|
|
### Produkčná anotačná dávka
|
|
|
|
treba urobiť:
|
|
|
|
- Motivácia študentov
|
|
- Anotácia dát
|
|
- Analýza anotovaných dát
|
|
- tvorba korpusu anotovaných dát
|
|
|
|
|