dmytro_ushatenko/pages/topics/named-entity/README.md

66 lines
1.3 KiB
Markdown
Raw Normal View History

2019-11-19 12:07:02 +00:00
---
title: Pomenované entity
2019-11-19 12:07:02 +00:00
---
# Pomenované entity
2019-11-19 12:07:02 +00:00
2020-07-01 16:27:35 +00:00
### Príprava dát
2019-11-19 12:07:02 +00:00
2020-07-01 16:27:35 +00:00
Vstup: Wiki XML dump
Výstup: Korpus dokumentov pre anotáciu
2019-11-19 12:07:02 +00:00
2020-07-01 16:27:35 +00:00
urobené:
2020-07-01 16:27:35 +00:00
- Parsovanie XML Wiki DUMP https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/wikicorpus
2020-07-01 16:27:35 +00:00
urobiť:
2020-07-01 16:27:35 +00:00
- Skript pre extrakciu paragrafov.
- Filter pre vyradenie článkov a paragrafov.
- Ručný výber článkov.
### Príprava anotačnej schémy
2020-07-01 16:27:35 +00:00
Výstup: nasadená a pripravená aplikácia na anotovanie
urobené:
- Deploymment Prodigy http://skner.tukekemt.xyz
- Konverzia dát do Prodigy https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/ner
urobiť:
- Anotačný manuál
- Sada značiek na anotáciu
2020-07-01 16:27:35 +00:00
- Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
### Prípravná anotačná dávka
2020-07-01 16:27:35 +00:00
urobené:
2020-07-01 16:27:35 +00:00
- nasadenie aplikácie pre analýzu anotovaných dát http://aksner.tukekemt.xyz
2020-07-01 16:27:35 +00:00
https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/database_app
2020-07-01 16:27:35 +00:00
prebieha:
2019-11-19 12:07:02 +00:00
2020-07-01 16:27:35 +00:00
- aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko
2019-11-19 12:07:02 +00:00
2020-07-01 16:27:35 +00:00
urobiť:
2019-11-19 12:07:02 +00:00
2020-07-01 16:27:35 +00:00
- Anotácia dát
- Príprava skriptu na čistenie anotovaných dát
2019-11-19 12:07:02 +00:00
2020-07-01 16:27:35 +00:00
### Produkčná anotačná dávka
2019-11-19 12:07:02 +00:00
2020-07-01 16:27:35 +00:00
treba urobiť:
2019-11-19 12:07:02 +00:00
2020-07-01 16:27:35 +00:00
- Motivácia študentov
- Anotácia dát
- Analýza anotovaných dát
- tvorba korpusu anotovaných dát
2019-11-19 12:07:02 +00:00