119 lines
		
	
	
		
			2.5 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			119 lines
		
	
	
		
			2.5 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
| ---
 | |
| title: Pomenované entity
 | |
| published: true
 | |
| taxonomy:
 | |
|     category: [project]
 | |
|     tag: [ner,nlp]
 | |
|     author: Daniel Hladek
 | |
| ---
 | |
| 
 | |
| # Pomenované entity
 | |
| ## Stretnutia
 | |
| 
 | |
| 11.8.2020
 | |
| 
 | |
| Rozdelíme wikicorpus na 100 častí.
 | |
| 
 | |
| Nebudeme riešiť doménový bias vo wikipédii.
 | |
| 
 | |
| Budeme riešiť bias na dĺžku článkov.
 | |
| 
 | |
| Tagová značka asi: LOC, MISC, ORG, PER.
 | |
| 
 | |
| Peter sa pozrie na wikiextraktor.
 | |
| 
 | |
| Daniel:
 | |
| 
 | |
| - vyrieši šablóny
 | |
| - vypočíta štatistiky o dĺžke paragrafov
 | |
| - navrhne pravidlo na ohodnotenie kvality článku, Kvalita článku závisí na dĺžke dobrých paragrafov a dĺžke celého článku.
 | |
| 
 | |
| ## Úlohy
 | |
| 
 | |
| ### Príprava dát
 | |
| 
 | |
| [Repozitár annotation/wikicorpus](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/wikicorpus)
 | |
| 
 | |
| Vstup: Wiki XML dump
 | |
| 
 | |
| Výstup: Množina dokumentov pre anotáciu
 | |
| 
 | |
| 
 | |
| urobené:
 | |
| 
 | |
| - Parsovanie XML Wiki DUMP 
 | |
| - Skript pre extrakciu paragrafov.
 | |
| 
 | |
| urobiť:
 | |
| 
 | |
| - Filter pre vyradenie článkov a paragrafov.
 | |
| - Ručný výber článkov.
 | |
| 
 | |
| ### Príprava anotačnej schémy
 | |
| 
 | |
| Vstup: dataset na anotovanie
 | |
| 
 | |
| Výstup: nasadená a pripravená aplikácia na anotovanie
 | |
| 
 | |
| [Repozitár annotation/ner](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/ner)
 | |
| 
 | |
| urobené:
 | |
| 
 | |
| - Anotačný recept (Jakub Maruniak)
 | |
| - [Deploymment Prodigy](http://skner.tukekemt.xyz) (Daniel Hládek)
 | |
| - Konverzia dát do Prodigy (Jakub Maruniak)
 | |
| 
 | |
| urobiť:
 | |
| 
 | |
| - Anotačný manuál
 | |
| - Sada značiek na anotáciu
 | |
| - Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
 | |
| - Pripraviť podrobné anotovanie "development" množiny
 | |
| 
 | |
| ### Prípravná anotačná dávka
 | |
| 
 | |
| [Repozitár annotation/database_app](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/database_app)
 | |
| 
 | |
| Vstup:
 | |
| 
 | |
| - pripravená aplikácia pre anotovanie
 | |
| 
 | |
| Výstup:
 | |
| 
 | |
| - prvé anotované dáta
 | |
| - aplikácia pre analýzu anotovaných dát
 | |
| - skript pre spájanie a filtrovanie anotovaných dát
 | |
| 
 | |
| 
 | |
| urobené:
 | |
| 
 | |
| - nasadenie aplikácie pre analýzu anotovaných dát http://askner.tukekemt.xyz (Daniel Hládek)
 | |
| 
 | |
| prebieha:
 | |
| 
 | |
| - aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko (Tomáš Kuchárik)
 | |
| 
 | |
| urobiť:
 | |
| 
 | |
| - Anotácia dát
 | |
| - Príprava skriptu na čistenie anotovaných dát
 | |
| 
 | |
| ### Produkčná anotačná dávka
 | |
| 
 | |
| Vstup: Pripravená aplikácia a dáta na anotovanie
 | |
| 
 | |
| Výstup: 
 | |
| 
 | |
| - Anotované dáta
 | |
| - korpus
 | |
| 
 | |
| treba urobiť:
 | |
| 
 | |
| - Motivácia študentov
 | |
| - Anotácia dát
 | |
| - Analýza anotovaných dát
 | |
| - tvorba korpusu anotovaných dát
 | |
| - Validácia anotovaných dát (anotačná schéma pre validáciu?)
 | |
| 
 | |
| 
 |