forked from KEMT/zpwiki
		
	Upload files to 'pages/students/2019/michal_stromko/dp2024'
This commit is contained in:
		
							parent
							
								
									670cf1a222
								
							
						
					
					
						commit
						dfbf9f0d34
					
				@ -0,0 +1,39 @@
 | 
				
			|||||||
 | 
					# Evaluation Set for Slovak News Information Retrieval
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Vyhodnocovací datset pre vyhľadávanie informácii
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					## Poznámky
 | 
				
			||||||
 | 
					- článok ukazuje ako vytvoriť vyhodnocovací súbor (databázu) otázok a odpovedí v slovenčine pre rôzne typy úloh v NLP.
 | 
				
			||||||
 | 
					- databáza je kompatibilná s datasetom Cranfield
 | 
				
			||||||
 | 
					- táto databáza je zostavená z relevantých dokumentov pre vyhodnotenie vyhľadávania
 | 
				
			||||||
 | 
					- v databáze sa nachádzajú tieto polia:
 | 
				
			||||||
 | 
					    - názov článku
 | 
				
			||||||
 | 
					    - meno autora
 | 
				
			||||||
 | 
					    - dátum publikovania článku
 | 
				
			||||||
 | 
					    - text článku
 | 
				
			||||||
 | 
					    - kategória článku (napr. politika, ekonomika)
 | 
				
			||||||
 | 
					- databáza obsahuje 3980 novinových článkov rozdelených do 6tich kategórii: ekonomika a podnikanie, kultúra, šport, domáce správy, svetové správy a zdravotníctvo
 | 
				
			||||||
 | 
					- v databáze môžeme nájsť aj 80 otázok, ktoré sa týkajú novynových článkov.
 | 
				
			||||||
 | 
					- každej jednej otázke je priradený atribút, ktorí hovorí relevanciu danej otázky v intervale 1 - 4
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					**Vyhodnotenie vyhľadávania informácii**
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- je to proces merania ako dobrý je daný systém, ktorý vyhľadáva informácie v danej databáze na základe preddefinovaných kritérii
 | 
				
			||||||
 | 
					- pre vyhodnotenie potrebujeme relevantné dokumenty, v ktorých sa nachádza odpoveď na otázku
 | 
				
			||||||
 | 
					- Vyhodnotenie vieme zapísať pomocou rôznych metrík ako:
 | 
				
			||||||
 | 
					    - Presnosť
 | 
				
			||||||
 | 
					    - Návratnosť
 | 
				
			||||||
 | 
					    - F miera
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					## Túto tému dať do DP má veľký význam aspoň podkapitola
 | 
				
			||||||
 | 
					**Lingvistické problémy Information Retreival v slovečine**
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- aby sme mohli implementovať systém IR pre slovenský jazyk, alebo podobný jazyk ako je slovenčina je potrebné zohľadniť nasledujúce špecifické problémy:
 | 
				
			||||||
 | 
					    - streaming or lemmatization
 | 
				
			||||||
 | 
					    - viacslovnsé výrazy a pomenované entity
 | 
				
			||||||
 | 
					    - synonymá a hononymá
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- jedným hlavným problémom, ktorý je špecifický pre slovenský jazyk je identifikovanie slov v texte
 | 
				
			||||||
 | 
					- prvý krok je vykonanie morfologickej analýzi na identifikáciu pôvodnej základnej morfologickej formy
 | 
				
			||||||
 | 
					- pre slovenský jazyk v tomto článku bola navrhnutá morfologická forma s využitím skrytého Markovho modelu.
 | 
				
			||||||
 | 
					- skoro rovanký prístup môžeme zvoliť aj pre indetifikáciu koreňa slova s použitím systému, ktorí je založený na. pravidlách (Hunspell)
 | 
				
			||||||
		Loading…
	
		Reference in New Issue
	
	Block a user