forked from KEMT/zpwiki
91 lines
1.7 KiB
Markdown
91 lines
1.7 KiB
Markdown
---
|
|
title: Pomenované entity
|
|
---
|
|
|
|
# Pomenované entity
|
|
|
|
### Príprava dát
|
|
|
|
[Repozitár annotation/wikicorpus](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/wikicorpus)
|
|
|
|
Vstup: Wiki XML dump
|
|
|
|
Výstup: Množina dokumentov pre anotáciu
|
|
|
|
|
|
urobené:
|
|
|
|
- Parsovanie XML Wiki DUMP
|
|
|
|
urobiť:
|
|
|
|
- Skript pre extrakciu paragrafov.
|
|
- Filter pre vyradenie článkov a paragrafov.
|
|
- Ručný výber článkov.
|
|
|
|
### Príprava anotačnej schémy
|
|
|
|
Vstup: dataset na anotovanie
|
|
|
|
Výstup: nasadená a pripravená aplikácia na anotovanie
|
|
|
|
[Repozitár annotation/ner](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/ner)
|
|
|
|
urobené:
|
|
|
|
- [Deploymment Prodigy](http://skner.tukekemt.xyz)
|
|
- Konverzia dát do Prodigy
|
|
|
|
urobiť:
|
|
|
|
- Anotačný manuál
|
|
- Sada značiek na anotáciu
|
|
- Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
|
|
- Pripraviť podrobné anotovanie "development" množiny
|
|
|
|
### Prípravná anotačná dávka
|
|
|
|
[Repozitár annotation/database_app](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/database_app)
|
|
|
|
Vstup:
|
|
|
|
- pripravená aplikácia pre anotovanie
|
|
|
|
Výstup:
|
|
|
|
- prvé anotované dáta
|
|
- aplikácia pre analýzu anotovaných dát
|
|
- skript pre spájanie a filtrovanie anotovaných dát
|
|
|
|
|
|
urobené:
|
|
|
|
- nasadenie aplikácie pre analýzu anotovaných dát http://askner.tukekemt.xyz
|
|
|
|
prebieha:
|
|
|
|
- aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko
|
|
|
|
urobiť:
|
|
|
|
- Anotácia dát
|
|
- Príprava skriptu na čistenie anotovaných dát
|
|
|
|
### Produkčná anotačná dávka
|
|
|
|
Vstup: Pripravená aplikácia a dáta na anotovanie
|
|
|
|
Výstup:
|
|
|
|
- Anotované dáta
|
|
- korpus
|
|
|
|
treba urobiť:
|
|
|
|
- Motivácia študentov
|
|
- Anotácia dát
|
|
- Analýza anotovaných dát
|
|
- tvorba korpusu anotovaných dát
|
|
|
|
|