zpwiki/pages/students/2019/michal_stromko/dp2024/EvaluationSetforSlovakNewsInformationRetrieval.md

# Evaluation Set for Slovak News Information Retrieval

Vyhodnocovací datset pre vyhľadávanie informácii

## Poznámky
- článok ukazuje ako vytvoriť vyhodnocovací súbor (databázu) otázok a odpovedí v slovenčine pre rôzne typy úloh v NLP.
- databáza je kompatibilná s datasetom Cranfield
- táto databáza je zostavená z relevantých dokumentov pre vyhodnotenie vyhľadávania
- v databáze sa nachádzajú tieto polia:
    - názov článku
    - meno autora
    - dátum publikovania článku
    - text článku
    - kategória článku (napr. politika, ekonomika)
- databáza obsahuje 3980 novinových článkov rozdelených do 6tich kategórii: ekonomika a podnikanie, kultúra, šport, domáce správy, svetové správy a zdravotníctvo
- v databáze môžeme nájsť aj 80 otázok, ktoré sa týkajú novynových článkov.
- každej jednej otázke je priradený atribút, ktorí hovorí relevanciu danej otázky v intervale 1 - 4

**Vyhodnotenie vyhľadávania informácii**

- je to proces merania ako dobrý je daný systém, ktorý vyhľadáva informácie v danej databáze na základe preddefinovaných kritérii
- pre vyhodnotenie potrebujeme relevantné dokumenty, v ktorých sa nachádza odpoveď na otázku
- Vyhodnotenie vieme zapísať pomocou rôznych metrík ako:
    - Presnosť
    - Návratnosť
    - F miera

## Túto tému dať do DP má veľký význam aspoň podkapitola
**Lingvistické problémy Information Retreival v slovečine**

- aby sme mohli implementovať systém IR pre slovenský jazyk, alebo podobný jazyk ako je slovenčina je potrebné zohľadniť nasledujúce špecifické problémy:
    - streaming or lemmatization
    - viacslovnsé výrazy a pomenované entity
    - synonymá a hononymá

- jedným hlavným problémom, ktorý je špecifický pre slovenský jazyk je identifikovanie slov v texte
- prvý krok je vykonanie morfologickej analýzi na identifikáciu pôvodnej základnej morfologickej formy
- pre slovenský jazyk v tomto článku bola navrhnutá morfologická forma s využitím skrytého Markovho modelu.
- skoro rovanký prístup môžeme zvoliť aj pre indetifikáciu koreňa slova s použitím systému, ktorí je založený na. pravidlách (Hunspell)
-												Upload files to 'pages/students/2019/michal_stromko/dp2024'

											
										
										
											2023-10-18 17:58:11 +00:00
+								# Evaluation Set for Slovak News Information Retrieval
 								Vyhodnocovací datset pre vyhľadávanie informácii
 								## Poznámky
 								- článok ukazuje ako vytvoriť vyhodnocovací súbor (databázu) otázok a odpovedí v slovenčine pre rôzne typy úloh v NLP.
 								- databáza je kompatibilná s datasetom Cranfield
 								- táto databáza je zostavená z relevantých dokumentov pre vyhodnotenie vyhľadávania
 								- v databáze sa nachádzajú tieto polia:
 								    - názov článku
 								    - meno autora
 								    - dátum publikovania článku
 								    - text článku
 								    - kategória článku (napr. politika, ekonomika)
 								- databáza obsahuje 3980 novinových článkov rozdelených do 6tich kategórii: ekonomika a podnikanie, kultúra, šport, domáce správy, svetové správy a zdravotníctvo
 								- v databáze môžeme nájsť aj 80 otázok, ktoré sa týkajú novynových článkov.
 								- každej jednej otázke je priradený atribút, ktorí hovorí relevanciu danej otázky v intervale 1 - 4
 								**Vyhodnotenie vyhľadávania informácii**
 								- je to proces merania ako dobrý je daný systém, ktorý vyhľadáva informácie v danej databáze na základe preddefinovaných kritérii
 								- pre vyhodnotenie potrebujeme relevantné dokumenty, v ktorých sa nachádza odpoveď na otázku
 								- Vyhodnotenie vieme zapísať pomocou rôznych metrík ako:
 								    - Presnosť
 								    - Návratnosť
 								    - F miera
 								## Túto tému dať do DP má veľký význam aspoň podkapitola
 								**Lingvistické problémy Information Retreival v slovečine**
 								- aby sme mohli implementovať systém IR pre slovenský jazyk, alebo podobný jazyk ako je slovenčina je potrebné zohľadniť nasledujúce špecifické problémy:
 								    - streaming or lemmatization
 								    - viacslovnsé výrazy a pomenované entity
 								    - synonymá a hononymá
 								- jedným hlavným problémom, ktorý je špecifický pre slovenský jazyk je identifikovanie slov v texte
 								- prvý krok je vykonanie morfologickej analýzi na identifikáciu pôvodnej základnej morfologickej formy
 								- pre slovenský jazyk v tomto článku bola navrhnutá morfologická forma s využitím skrytého Markovho modelu.
 								- skoro rovanký prístup môžeme zvoliť aj pre indetifikáciu koreňa slova s použitím systému, ktorí je založený na. pravidlách (Hunspell)