zpwiki/pages/topics/named-entity/README.md
2020-07-01 18:27:35 +02:00

66 lines
1.3 KiB
Markdown

---
title: Pomenované entity
---
# Pomenované entity
### Príprava dát
Vstup: Wiki XML dump
Výstup: Korpus dokumentov pre anotáciu
urobené:
- Parsovanie XML Wiki DUMP https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/wikicorpus
urobiť:
- Skript pre extrakciu paragrafov.
- Filter pre vyradenie článkov a paragrafov.
- Ručný výber článkov.
### Príprava anotačnej schémy
Výstup: nasadená a pripravená aplikácia na anotovanie
urobené:
- Deploymment Prodigy http://skner.tukekemt.xyz
- Konverzia dát do Prodigy https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/ner
urobiť:
- Anotačný manuál
- Sada značiek na anotáciu
- Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
### Prípravná anotačná dávka
urobené:
- nasadenie aplikácie pre analýzu anotovaných dát http://aksner.tukekemt.xyz
https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/database_app
prebieha:
- aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko
urobiť:
- Anotácia dát
- Príprava skriptu na čistenie anotovaných dát
### Produkčná anotačná dávka
treba urobiť:
- Motivácia študentov
- Anotácia dát
- Analýza anotovaných dát
- tvorba korpusu anotovaných dát