2.2 KiB
		
	
	
	
	
	
	
	
			
		
		
	
	Evaluation Set for Slovak News Information Retrieval
Vyhodnocovací datset pre vyhľadávanie informácii
Poznámky
- článok ukazuje ako vytvoriť vyhodnocovací súbor (databázu) otázok a odpovedí v slovenčine pre rôzne typy úloh v NLP.
 - databáza je kompatibilná s datasetom Cranfield
 - táto databáza je zostavená z relevantých dokumentov pre vyhodnotenie vyhľadávania
 - v databáze sa nachádzajú tieto polia:
- názov článku
 - meno autora
 - dátum publikovania článku
 - text článku
 - kategória článku (napr. politika, ekonomika)
 
 - databáza obsahuje 3980 novinových článkov rozdelených do 6tich kategórii: ekonomika a podnikanie, kultúra, šport, domáce správy, svetové správy a zdravotníctvo
 - v databáze môžeme nájsť aj 80 otázok, ktoré sa týkajú novynových článkov.
 - každej jednej otázke je priradený atribút, ktorí hovorí relevanciu danej otázky v intervale 1 - 4
 
Vyhodnotenie vyhľadávania informácii
- je to proces merania ako dobrý je daný systém, ktorý vyhľadáva informácie v danej databáze na základe preddefinovaných kritérii
 - pre vyhodnotenie potrebujeme relevantné dokumenty, v ktorých sa nachádza odpoveď na otázku
 - Vyhodnotenie vieme zapísať pomocou rôznych metrík ako:
- Presnosť
 - Návratnosť
 - F miera
 
 
## Túto tému dať do DP má veľký význam aspoň podkapitola Lingvistické problémy Information Retreival v slovečine
- 
aby sme mohli implementovať systém IR pre slovenský jazyk, alebo podobný jazyk ako je slovenčina je potrebné zohľadniť nasledujúce špecifické problémy:
- streaming or lemmatization
 - viacslovnsé výrazy a pomenované entity
 - synonymá a hononymá
 
 - 
jedným hlavným problémom, ktorý je špecifický pre slovenský jazyk je identifikovanie slov v texte
 - 
prvý krok je vykonanie morfologickej analýzi na identifikáciu pôvodnej základnej morfologickej formy
 - 
pre slovenský jazyk v tomto článku bola navrhnutá morfologická forma s využitím skrytého Markovho modelu.
 - 
skoro rovanký prístup môžeme zvoliť aj pre indetifikáciu koreňa slova s použitím systému, ktorí je založený na. pravidlách (Hunspell)