Upload files to 'pages/students/2019/michal_stromko/dp2024'
This commit is contained in:
parent
670cf1a222
commit
dfbf9f0d34
@ -0,0 +1,39 @@
|
||||
# Evaluation Set for Slovak News Information Retrieval
|
||||
|
||||
Vyhodnocovací datset pre vyhľadávanie informácii
|
||||
|
||||
## Poznámky
|
||||
- článok ukazuje ako vytvoriť vyhodnocovací súbor (databázu) otázok a odpovedí v slovenčine pre rôzne typy úloh v NLP.
|
||||
- databáza je kompatibilná s datasetom Cranfield
|
||||
- táto databáza je zostavená z relevantých dokumentov pre vyhodnotenie vyhľadávania
|
||||
- v databáze sa nachádzajú tieto polia:
|
||||
- názov článku
|
||||
- meno autora
|
||||
- dátum publikovania článku
|
||||
- text článku
|
||||
- kategória článku (napr. politika, ekonomika)
|
||||
- databáza obsahuje 3980 novinových článkov rozdelených do 6tich kategórii: ekonomika a podnikanie, kultúra, šport, domáce správy, svetové správy a zdravotníctvo
|
||||
- v databáze môžeme nájsť aj 80 otázok, ktoré sa týkajú novynových článkov.
|
||||
- každej jednej otázke je priradený atribút, ktorí hovorí relevanciu danej otázky v intervale 1 - 4
|
||||
|
||||
**Vyhodnotenie vyhľadávania informácii**
|
||||
|
||||
- je to proces merania ako dobrý je daný systém, ktorý vyhľadáva informácie v danej databáze na základe preddefinovaných kritérii
|
||||
- pre vyhodnotenie potrebujeme relevantné dokumenty, v ktorých sa nachádza odpoveď na otázku
|
||||
- Vyhodnotenie vieme zapísať pomocou rôznych metrík ako:
|
||||
- Presnosť
|
||||
- Návratnosť
|
||||
- F miera
|
||||
|
||||
## Túto tému dať do DP má veľký význam aspoň podkapitola
|
||||
**Lingvistické problémy Information Retreival v slovečine**
|
||||
|
||||
- aby sme mohli implementovať systém IR pre slovenský jazyk, alebo podobný jazyk ako je slovenčina je potrebné zohľadniť nasledujúce špecifické problémy:
|
||||
- streaming or lemmatization
|
||||
- viacslovnsé výrazy a pomenované entity
|
||||
- synonymá a hononymá
|
||||
|
||||
- jedným hlavným problémom, ktorý je špecifický pre slovenský jazyk je identifikovanie slov v texte
|
||||
- prvý krok je vykonanie morfologickej analýzi na identifikáciu pôvodnej základnej morfologickej formy
|
||||
- pre slovenský jazyk v tomto článku bola navrhnutá morfologická forma s využitím skrytého Markovho modelu.
|
||||
- skoro rovanký prístup môžeme zvoliť aj pre indetifikáciu koreňa slova s použitím systému, ktorí je založený na. pravidlách (Hunspell)
|
Loading…
Reference in New Issue
Block a user