forked from KEMT/zpwiki
		
	Upload files to 'pages/students/2019/michal_stromko/dp2024'
This commit is contained in:
		
							parent
							
								
									670cf1a222
								
							
						
					
					
						commit
						dfbf9f0d34
					
				| @ -0,0 +1,39 @@ | |||||||
|  | # Evaluation Set for Slovak News Information Retrieval | ||||||
|  | 
 | ||||||
|  | Vyhodnocovací datset pre vyhľadávanie informácii | ||||||
|  | 
 | ||||||
|  | ## Poznámky | ||||||
|  | - článok ukazuje ako vytvoriť vyhodnocovací súbor (databázu) otázok a odpovedí v slovenčine pre rôzne typy úloh v NLP. | ||||||
|  | - databáza je kompatibilná s datasetom Cranfield | ||||||
|  | - táto databáza je zostavená z relevantých dokumentov pre vyhodnotenie vyhľadávania | ||||||
|  | - v databáze sa nachádzajú tieto polia: | ||||||
|  |     - názov článku | ||||||
|  |     - meno autora | ||||||
|  |     - dátum publikovania článku | ||||||
|  |     - text článku | ||||||
|  |     - kategória článku (napr. politika, ekonomika) | ||||||
|  | - databáza obsahuje 3980 novinových článkov rozdelených do 6tich kategórii: ekonomika a podnikanie, kultúra, šport, domáce správy, svetové správy a zdravotníctvo | ||||||
|  | - v databáze môžeme nájsť aj 80 otázok, ktoré sa týkajú novynových článkov. | ||||||
|  | - každej jednej otázke je priradený atribút, ktorí hovorí relevanciu danej otázky v intervale 1 - 4 | ||||||
|  | 
 | ||||||
|  | **Vyhodnotenie vyhľadávania informácii** | ||||||
|  | 
 | ||||||
|  | - je to proces merania ako dobrý je daný systém, ktorý vyhľadáva informácie v danej databáze na základe preddefinovaných kritérii | ||||||
|  | - pre vyhodnotenie potrebujeme relevantné dokumenty, v ktorých sa nachádza odpoveď na otázku | ||||||
|  | - Vyhodnotenie vieme zapísať pomocou rôznych metrík ako: | ||||||
|  |     - Presnosť | ||||||
|  |     - Návratnosť | ||||||
|  |     - F miera | ||||||
|  | 
 | ||||||
|  | ## Túto tému dať do DP má veľký význam aspoň podkapitola | ||||||
|  | **Lingvistické problémy Information Retreival v slovečine** | ||||||
|  | 
 | ||||||
|  | - aby sme mohli implementovať systém IR pre slovenský jazyk, alebo podobný jazyk ako je slovenčina je potrebné zohľadniť nasledujúce špecifické problémy: | ||||||
|  |     - streaming or lemmatization | ||||||
|  |     - viacslovnsé výrazy a pomenované entity | ||||||
|  |     - synonymá a hononymá | ||||||
|  | 
 | ||||||
|  | - jedným hlavným problémom, ktorý je špecifický pre slovenský jazyk je identifikovanie slov v texte | ||||||
|  | - prvý krok je vykonanie morfologickej analýzi na identifikáciu pôvodnej základnej morfologickej formy | ||||||
|  | - pre slovenský jazyk v tomto článku bola navrhnutá morfologická forma s využitím skrytého Markovho modelu. | ||||||
|  | - skoro rovanký prístup môžeme zvoliť aj pre indetifikáciu koreňa slova s použitím systému, ktorí je založený na. pravidlách (Hunspell) | ||||||
		Loading…
	
		Reference in New Issue
	
	Block a user