zpwiki/pages/topics/named-entity/README.md

119 lines
2.5 KiB
Markdown
Raw Normal View History

2019-11-19 12:07:02 +00:00
---
title: Pomenované entity
2020-10-01 14:05:57 +00:00
published: true
taxonomy:
category: [project]
tag: [ner,nlp]
author: Daniel Hladek
2019-11-19 12:07:02 +00:00
---
# Pomenované entity
## Stretnutia
11.8.2020
Rozdelíme wikicorpus na 100 častí.
Nebudeme riešiť doménový bias vo wikipédii.
Budeme riešiť bias na dĺžku článkov.
Tagová značka asi: LOC, MISC, ORG, PER.
Peter sa pozrie na wikiextraktor.
Daniel:
- vyrieši šablóny
- vypočíta štatistiky o dĺžke paragrafov
- navrhne pravidlo na ohodnotenie kvality článku, Kvalita článku závisí na dĺžke dobrých paragrafov a dĺžke celého článku.
## Úlohy
2019-11-19 12:07:02 +00:00
2020-07-01 16:27:35 +00:00
### Príprava dát
2019-11-19 12:07:02 +00:00
2020-07-01 16:39:30 +00:00
[Repozitár annotation/wikicorpus](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/wikicorpus)
2020-07-01 16:37:29 +00:00
2020-07-01 16:27:35 +00:00
Vstup: Wiki XML dump
2020-07-01 16:37:29 +00:00
Výstup: Množina dokumentov pre anotáciu
2019-11-19 12:07:02 +00:00
2020-07-01 16:27:35 +00:00
urobené:
2020-07-01 16:37:29 +00:00
- Parsovanie XML Wiki DUMP
- Skript pre extrakciu paragrafov.
2020-07-01 16:27:35 +00:00
urobiť:
2020-07-01 16:27:35 +00:00
- Filter pre vyradenie článkov a paragrafov.
- Ručný výber článkov.
### Príprava anotačnej schémy
2020-07-01 16:37:29 +00:00
Vstup: dataset na anotovanie
2020-07-01 16:27:35 +00:00
Výstup: nasadená a pripravená aplikácia na anotovanie
2020-07-01 16:37:29 +00:00
[Repozitár annotation/ner](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/ner)
2020-07-01 16:27:35 +00:00
urobené:
- Anotačný recept (Jakub Maruniak)
- [Deploymment Prodigy](http://skner.tukekemt.xyz) (Daniel Hládek)
- Konverzia dát do Prodigy (Jakub Maruniak)
2020-07-01 16:27:35 +00:00
urobiť:
- Anotačný manuál
- Sada značiek na anotáciu
2020-07-01 16:37:29 +00:00
- Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
- Pripraviť podrobné anotovanie "development" množiny
### Prípravná anotačná dávka
2020-07-01 16:37:29 +00:00
[Repozitár annotation/database_app](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/database_app)
Vstup:
- pripravená aplikácia pre anotovanie
Výstup:
- prvé anotované dáta
- aplikácia pre analýzu anotovaných dát
- skript pre spájanie a filtrovanie anotovaných dát
2020-07-01 16:27:35 +00:00
urobené:
- nasadenie aplikácie pre analýzu anotovaných dát http://askner.tukekemt.xyz (Daniel Hládek)
2020-07-01 16:27:35 +00:00
prebieha:
2019-11-19 12:07:02 +00:00
- aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko (Tomáš Kuchárik)
2019-11-19 12:07:02 +00:00
2020-07-01 16:27:35 +00:00
urobiť:
2019-11-19 12:07:02 +00:00
2020-07-01 16:27:35 +00:00
- Anotácia dát
- Príprava skriptu na čistenie anotovaných dát
2019-11-19 12:07:02 +00:00
2020-07-01 16:27:35 +00:00
### Produkčná anotačná dávka
2019-11-19 12:07:02 +00:00
2020-07-01 16:37:29 +00:00
Vstup: Pripravená aplikácia a dáta na anotovanie
Výstup:
- Anotované dáta
- korpus
2020-07-01 16:27:35 +00:00
treba urobiť:
2019-11-19 12:07:02 +00:00
2020-07-01 16:27:35 +00:00
- Motivácia študentov
- Anotácia dát
- Analýza anotovaných dát
- tvorba korpusu anotovaných dát
- Validácia anotovaných dát (anotačná schéma pre validáciu?)
2019-11-19 12:07:02 +00:00