forked from KEMT/zpwiki
119 lines
2.5 KiB
Markdown
119 lines
2.5 KiB
Markdown
---
|
|
title: Pomenované entity
|
|
published: true
|
|
taxonomy:
|
|
category: [project]
|
|
tag: [ner,nlp]
|
|
author: Daniel Hladek
|
|
---
|
|
|
|
# Pomenované entity
|
|
## Stretnutia
|
|
|
|
11.8.2020
|
|
|
|
Rozdelíme wikicorpus na 100 častí.
|
|
|
|
Nebudeme riešiť doménový bias vo wikipédii.
|
|
|
|
Budeme riešiť bias na dĺžku článkov.
|
|
|
|
Tagová značka asi: LOC, MISC, ORG, PER.
|
|
|
|
Peter sa pozrie na wikiextraktor.
|
|
|
|
Daniel:
|
|
|
|
- vyrieši šablóny
|
|
- vypočíta štatistiky o dĺžke paragrafov
|
|
- navrhne pravidlo na ohodnotenie kvality článku, Kvalita článku závisí na dĺžke dobrých paragrafov a dĺžke celého článku.
|
|
|
|
## Úlohy
|
|
|
|
### Príprava dát
|
|
|
|
[Repozitár annotation/wikicorpus](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/wikicorpus)
|
|
|
|
Vstup: Wiki XML dump
|
|
|
|
Výstup: Množina dokumentov pre anotáciu
|
|
|
|
|
|
urobené:
|
|
|
|
- Parsovanie XML Wiki DUMP
|
|
- Skript pre extrakciu paragrafov.
|
|
|
|
urobiť:
|
|
|
|
- Filter pre vyradenie článkov a paragrafov.
|
|
- Ručný výber článkov.
|
|
|
|
### Príprava anotačnej schémy
|
|
|
|
Vstup: dataset na anotovanie
|
|
|
|
Výstup: nasadená a pripravená aplikácia na anotovanie
|
|
|
|
[Repozitár annotation/ner](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/ner)
|
|
|
|
urobené:
|
|
|
|
- Anotačný recept (Jakub Maruniak)
|
|
- [Deploymment Prodigy](http://skner.tukekemt.xyz) (Daniel Hládek)
|
|
- Konverzia dát do Prodigy (Jakub Maruniak)
|
|
|
|
urobiť:
|
|
|
|
- Anotačný manuál
|
|
- Sada značiek na anotáciu
|
|
- Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
|
|
- Pripraviť podrobné anotovanie "development" množiny
|
|
|
|
### Prípravná anotačná dávka
|
|
|
|
[Repozitár annotation/database_app](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/database_app)
|
|
|
|
Vstup:
|
|
|
|
- pripravená aplikácia pre anotovanie
|
|
|
|
Výstup:
|
|
|
|
- prvé anotované dáta
|
|
- aplikácia pre analýzu anotovaných dát
|
|
- skript pre spájanie a filtrovanie anotovaných dát
|
|
|
|
|
|
urobené:
|
|
|
|
- nasadenie aplikácie pre analýzu anotovaných dát http://askner.tukekemt.xyz (Daniel Hládek)
|
|
|
|
prebieha:
|
|
|
|
- aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko (Tomáš Kuchárik)
|
|
|
|
urobiť:
|
|
|
|
- Anotácia dát
|
|
- Príprava skriptu na čistenie anotovaných dát
|
|
|
|
### Produkčná anotačná dávka
|
|
|
|
Vstup: Pripravená aplikácia a dáta na anotovanie
|
|
|
|
Výstup:
|
|
|
|
- Anotované dáta
|
|
- korpus
|
|
|
|
treba urobiť:
|
|
|
|
- Motivácia študentov
|
|
- Anotácia dát
|
|
- Analýza anotovaných dát
|
|
- tvorba korpusu anotovaných dát
|
|
- Validácia anotovaných dát (anotačná schéma pre validáciu?)
|
|
|
|
|