2019-11-19 12:07:02 +00:00
|
|
|
---
|
2020-01-26 13:17:15 +00:00
|
|
|
title: Pomenované entity
|
2019-11-19 12:07:02 +00:00
|
|
|
---
|
|
|
|
|
2020-01-26 13:17:15 +00:00
|
|
|
# Pomenované entity
|
2020-08-11 10:20:33 +00:00
|
|
|
## Stretnutia
|
|
|
|
|
|
|
|
11.8.2020
|
|
|
|
|
|
|
|
Rozdelíme wikicorpus na 100 častí.
|
|
|
|
|
|
|
|
Nebudeme riešiť doménový bias vo wikipédii.
|
|
|
|
|
|
|
|
Budeme riešiť bias na dĺžku článkov.
|
|
|
|
|
|
|
|
Tagová značka asi: LOC, MISC, ORG, PER.
|
|
|
|
|
|
|
|
Peter sa pozrie na wikiextraktor.
|
|
|
|
|
|
|
|
Daniel:
|
|
|
|
|
|
|
|
- vyrieši šablóny
|
|
|
|
- vypočíta štatistiky o dĺžke paragrafov
|
|
|
|
- navrhne pravidlo na ohodnotenie kvality článku, Kvalita článku závisí na dĺžke dobrých paragrafov a dĺžke celého článku.
|
|
|
|
|
|
|
|
## Úlohy
|
2019-11-19 12:07:02 +00:00
|
|
|
|
2020-07-01 16:27:35 +00:00
|
|
|
### Príprava dát
|
2019-11-19 12:07:02 +00:00
|
|
|
|
2020-07-01 16:39:30 +00:00
|
|
|
[Repozitár annotation/wikicorpus](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/wikicorpus)
|
2020-07-01 16:37:29 +00:00
|
|
|
|
2020-07-01 16:27:35 +00:00
|
|
|
Vstup: Wiki XML dump
|
2020-07-01 16:37:29 +00:00
|
|
|
|
|
|
|
Výstup: Množina dokumentov pre anotáciu
|
|
|
|
|
2019-11-19 12:07:02 +00:00
|
|
|
|
2020-07-01 16:27:35 +00:00
|
|
|
urobené:
|
2020-06-30 13:13:17 +00:00
|
|
|
|
2020-07-01 16:37:29 +00:00
|
|
|
- Parsovanie XML Wiki DUMP
|
2020-08-11 10:20:33 +00:00
|
|
|
- Skript pre extrakciu paragrafov.
|
2020-06-30 13:13:17 +00:00
|
|
|
|
2020-07-01 16:27:35 +00:00
|
|
|
urobiť:
|
2020-06-30 13:13:17 +00:00
|
|
|
|
2020-07-01 16:27:35 +00:00
|
|
|
- Filter pre vyradenie článkov a paragrafov.
|
|
|
|
- Ručný výber článkov.
|
2020-06-30 13:13:17 +00:00
|
|
|
|
|
|
|
### Príprava anotačnej schémy
|
|
|
|
|
2020-07-01 16:37:29 +00:00
|
|
|
Vstup: dataset na anotovanie
|
|
|
|
|
2020-07-01 16:27:35 +00:00
|
|
|
Výstup: nasadená a pripravená aplikácia na anotovanie
|
|
|
|
|
2020-07-01 16:37:29 +00:00
|
|
|
[Repozitár annotation/ner](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/ner)
|
|
|
|
|
2020-07-01 16:27:35 +00:00
|
|
|
urobené:
|
|
|
|
|
2020-07-07 06:26:17 +00:00
|
|
|
- Anotačný recept (Jakub Maruniak)
|
|
|
|
- [Deploymment Prodigy](http://skner.tukekemt.xyz) (Daniel Hládek)
|
|
|
|
- Konverzia dát do Prodigy (Jakub Maruniak)
|
2020-07-01 16:27:35 +00:00
|
|
|
|
|
|
|
urobiť:
|
|
|
|
|
2020-06-30 13:13:17 +00:00
|
|
|
- Anotačný manuál
|
|
|
|
- Sada značiek na anotáciu
|
2020-07-01 16:37:29 +00:00
|
|
|
- Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
|
|
|
|
- Pripraviť podrobné anotovanie "development" množiny
|
2020-06-30 13:13:17 +00:00
|
|
|
|
|
|
|
### Prípravná anotačná dávka
|
|
|
|
|
2020-07-01 16:37:29 +00:00
|
|
|
[Repozitár annotation/database_app](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/database_app)
|
|
|
|
|
|
|
|
Vstup:
|
|
|
|
|
|
|
|
- pripravená aplikácia pre anotovanie
|
|
|
|
|
|
|
|
Výstup:
|
|
|
|
|
|
|
|
- prvé anotované dáta
|
|
|
|
- aplikácia pre analýzu anotovaných dát
|
|
|
|
- skript pre spájanie a filtrovanie anotovaných dát
|
|
|
|
|
|
|
|
|
2020-07-01 16:27:35 +00:00
|
|
|
urobené:
|
2020-06-30 13:13:17 +00:00
|
|
|
|
2020-07-07 06:26:17 +00:00
|
|
|
- nasadenie aplikácie pre analýzu anotovaných dát http://askner.tukekemt.xyz (Daniel Hládek)
|
2020-06-30 13:13:17 +00:00
|
|
|
|
2020-07-01 16:27:35 +00:00
|
|
|
prebieha:
|
2019-11-19 12:07:02 +00:00
|
|
|
|
2020-07-07 06:26:17 +00:00
|
|
|
- aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko (Tomáš Kuchárik)
|
2019-11-19 12:07:02 +00:00
|
|
|
|
2020-07-01 16:27:35 +00:00
|
|
|
urobiť:
|
2019-11-19 12:07:02 +00:00
|
|
|
|
2020-07-01 16:27:35 +00:00
|
|
|
- Anotácia dát
|
|
|
|
- Príprava skriptu na čistenie anotovaných dát
|
2019-11-19 12:07:02 +00:00
|
|
|
|
2020-07-01 16:27:35 +00:00
|
|
|
### Produkčná anotačná dávka
|
2019-11-19 12:07:02 +00:00
|
|
|
|
2020-07-01 16:37:29 +00:00
|
|
|
Vstup: Pripravená aplikácia a dáta na anotovanie
|
|
|
|
|
|
|
|
Výstup:
|
|
|
|
|
|
|
|
- Anotované dáta
|
|
|
|
- korpus
|
|
|
|
|
2020-07-01 16:27:35 +00:00
|
|
|
treba urobiť:
|
2019-11-19 12:07:02 +00:00
|
|
|
|
2020-07-01 16:27:35 +00:00
|
|
|
- Motivácia študentov
|
|
|
|
- Anotácia dát
|
|
|
|
- Analýza anotovaných dát
|
|
|
|
- tvorba korpusu anotovaných dát
|
2020-07-07 06:26:17 +00:00
|
|
|
- Validácia anotovaných dát (anotačná schéma pre validáciu?)
|
2019-11-19 12:07:02 +00:00
|
|
|
|
|
|
|
|