forked from KEMT/zpwiki
		
	
		
			
				
	
	
		
			119 lines
		
	
	
		
			2.5 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			119 lines
		
	
	
		
			2.5 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
---
 | 
						|
title: Pomenované entity
 | 
						|
published: true
 | 
						|
taxonomy:
 | 
						|
    category: [project]
 | 
						|
    tag: [ner,nlp]
 | 
						|
    author: Daniel Hladek
 | 
						|
---
 | 
						|
 | 
						|
# Pomenované entity
 | 
						|
## Stretnutia
 | 
						|
 | 
						|
11.8.2020
 | 
						|
 | 
						|
Rozdelíme wikicorpus na 100 častí.
 | 
						|
 | 
						|
Nebudeme riešiť doménový bias vo wikipédii.
 | 
						|
 | 
						|
Budeme riešiť bias na dĺžku článkov.
 | 
						|
 | 
						|
Tagová značka asi: LOC, MISC, ORG, PER.
 | 
						|
 | 
						|
Peter sa pozrie na wikiextraktor.
 | 
						|
 | 
						|
Daniel:
 | 
						|
 | 
						|
- vyrieši šablóny
 | 
						|
- vypočíta štatistiky o dĺžke paragrafov
 | 
						|
- navrhne pravidlo na ohodnotenie kvality článku, Kvalita článku závisí na dĺžke dobrých paragrafov a dĺžke celého článku.
 | 
						|
 | 
						|
## Úlohy
 | 
						|
 | 
						|
### Príprava dát
 | 
						|
 | 
						|
[Repozitár annotation/wikicorpus](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/wikicorpus)
 | 
						|
 | 
						|
Vstup: Wiki XML dump
 | 
						|
 | 
						|
Výstup: Množina dokumentov pre anotáciu
 | 
						|
 | 
						|
 | 
						|
urobené:
 | 
						|
 | 
						|
- Parsovanie XML Wiki DUMP 
 | 
						|
- Skript pre extrakciu paragrafov.
 | 
						|
 | 
						|
urobiť:
 | 
						|
 | 
						|
- Filter pre vyradenie článkov a paragrafov.
 | 
						|
- Ručný výber článkov.
 | 
						|
 | 
						|
### Príprava anotačnej schémy
 | 
						|
 | 
						|
Vstup: dataset na anotovanie
 | 
						|
 | 
						|
Výstup: nasadená a pripravená aplikácia na anotovanie
 | 
						|
 | 
						|
[Repozitár annotation/ner](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/ner)
 | 
						|
 | 
						|
urobené:
 | 
						|
 | 
						|
- Anotačný recept (Jakub Maruniak)
 | 
						|
- [Deploymment Prodigy](http://skner.tukekemt.xyz) (Daniel Hládek)
 | 
						|
- Konverzia dát do Prodigy (Jakub Maruniak)
 | 
						|
 | 
						|
urobiť:
 | 
						|
 | 
						|
- Anotačný manuál
 | 
						|
- Sada značiek na anotáciu
 | 
						|
- Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
 | 
						|
- Pripraviť podrobné anotovanie "development" množiny
 | 
						|
 | 
						|
### Prípravná anotačná dávka
 | 
						|
 | 
						|
[Repozitár annotation/database_app](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/database_app)
 | 
						|
 | 
						|
Vstup:
 | 
						|
 | 
						|
- pripravená aplikácia pre anotovanie
 | 
						|
 | 
						|
Výstup:
 | 
						|
 | 
						|
- prvé anotované dáta
 | 
						|
- aplikácia pre analýzu anotovaných dát
 | 
						|
- skript pre spájanie a filtrovanie anotovaných dát
 | 
						|
 | 
						|
 | 
						|
urobené:
 | 
						|
 | 
						|
- nasadenie aplikácie pre analýzu anotovaných dát http://askner.tukekemt.xyz (Daniel Hládek)
 | 
						|
 | 
						|
prebieha:
 | 
						|
 | 
						|
- aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko (Tomáš Kuchárik)
 | 
						|
 | 
						|
urobiť:
 | 
						|
 | 
						|
- Anotácia dát
 | 
						|
- Príprava skriptu na čistenie anotovaných dát
 | 
						|
 | 
						|
### Produkčná anotačná dávka
 | 
						|
 | 
						|
Vstup: Pripravená aplikácia a dáta na anotovanie
 | 
						|
 | 
						|
Výstup: 
 | 
						|
 | 
						|
- Anotované dáta
 | 
						|
- korpus
 | 
						|
 | 
						|
treba urobiť:
 | 
						|
 | 
						|
- Motivácia študentov
 | 
						|
- Anotácia dát
 | 
						|
- Analýza anotovaných dát
 | 
						|
- tvorba korpusu anotovaných dát
 | 
						|
- Validácia anotovaných dát (anotačná schéma pre validáciu?)
 | 
						|
 | 
						|
 |