---
title: Pomenované entity
published: true
taxonomy:
    category: [project]
    tag: [ner,nlp]
    author: Daniel Hladek
---

# Pomenované entity
## Stretnutia

11.8.2020

Rozdelíme wikicorpus na 100 častí.

Nebudeme riešiť doménový bias vo wikipédii.

Budeme riešiť bias na dĺžku článkov.

Tagová značka asi: LOC, MISC, ORG, PER.

Peter sa pozrie na wikiextraktor.

Daniel:

- vyrieši šablóny
- vypočíta štatistiky o dĺžke paragrafov
- navrhne pravidlo na ohodnotenie kvality článku, Kvalita článku závisí na dĺžke dobrých paragrafov a dĺžke celého článku.

## Úlohy

### Príprava dát

[Repozitár annotation/wikicorpus](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/wikicorpus)

Vstup: Wiki XML dump

Výstup: Množina dokumentov pre anotáciu


urobené:

- Parsovanie XML Wiki DUMP 
- Skript pre extrakciu paragrafov.

urobiť:

- Filter pre vyradenie článkov a paragrafov.
- Ručný výber článkov.

### Príprava anotačnej schémy

Vstup: dataset na anotovanie

Výstup: nasadená a pripravená aplikácia na anotovanie

[Repozitár annotation/ner](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/ner)

urobené:

- Anotačný recept (Jakub Maruniak)
- [Deploymment Prodigy](http://skner.tukekemt.xyz) (Daniel Hládek)
- Konverzia dát do Prodigy (Jakub Maruniak)

urobiť:

- Anotačný manuál
- Sada značiek na anotáciu
- Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
- Pripraviť podrobné anotovanie "development" množiny

### Prípravná anotačná dávka

[Repozitár annotation/database_app](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/database_app)

Vstup:

- pripravená aplikácia pre anotovanie

Výstup:

- prvé anotované dáta
- aplikácia pre analýzu anotovaných dát
- skript pre spájanie a filtrovanie anotovaných dát


urobené:

- nasadenie aplikácie pre analýzu anotovaných dát http://askner.tukekemt.xyz (Daniel Hládek)

prebieha:

- aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko (Tomáš Kuchárik)

urobiť:

- Anotácia dát
- Príprava skriptu na čistenie anotovaných dát

### Produkčná anotačná dávka

Vstup: Pripravená aplikácia a dáta na anotovanie

Výstup: 

- Anotované dáta
- korpus

treba urobiť:

- Motivácia študentov
- Anotácia dát
- Analýza anotovaných dát
- tvorba korpusu anotovaných dát
- Validácia anotovaných dát (anotačná schéma pre validáciu?)