From dfbf9f0d345dc65018dff4f08eb4f9cf61ceb0cd Mon Sep 17 00:00:00 2001 From: Michal Stromko Date: Wed, 18 Oct 2023 17:58:11 +0000 Subject: [PATCH] Upload files to 'pages/students/2019/michal_stromko/dp2024' --- ...ionSetforSlovakNewsInformationRetrieval.md | 39 +++++++++++++++++++ 1 file changed, 39 insertions(+) create mode 100644 pages/students/2019/michal_stromko/dp2024/EvaluationSetforSlovakNewsInformationRetrieval.md diff --git a/pages/students/2019/michal_stromko/dp2024/EvaluationSetforSlovakNewsInformationRetrieval.md b/pages/students/2019/michal_stromko/dp2024/EvaluationSetforSlovakNewsInformationRetrieval.md new file mode 100644 index 00000000..728db115 --- /dev/null +++ b/pages/students/2019/michal_stromko/dp2024/EvaluationSetforSlovakNewsInformationRetrieval.md @@ -0,0 +1,39 @@ +# Evaluation Set for Slovak News Information Retrieval + +Vyhodnocovací datset pre vyhľadávanie informácii + +## Poznámky +- článok ukazuje ako vytvoriť vyhodnocovací súbor (databázu) otázok a odpovedí v slovenčine pre rôzne typy úloh v NLP. +- databáza je kompatibilná s datasetom Cranfield +- táto databáza je zostavená z relevantých dokumentov pre vyhodnotenie vyhľadávania +- v databáze sa nachádzajú tieto polia: + - názov článku + - meno autora + - dátum publikovania článku + - text článku + - kategória článku (napr. politika, ekonomika) +- databáza obsahuje 3980 novinových článkov rozdelených do 6tich kategórii: ekonomika a podnikanie, kultúra, šport, domáce správy, svetové správy a zdravotníctvo +- v databáze môžeme nájsť aj 80 otázok, ktoré sa týkajú novynových článkov. +- každej jednej otázke je priradený atribút, ktorí hovorí relevanciu danej otázky v intervale 1 - 4 + +**Vyhodnotenie vyhľadávania informácii** + +- je to proces merania ako dobrý je daný systém, ktorý vyhľadáva informácie v danej databáze na základe preddefinovaných kritérii +- pre vyhodnotenie potrebujeme relevantné dokumenty, v ktorých sa nachádza odpoveď na otázku +- Vyhodnotenie vieme zapísať pomocou rôznych metrík ako: + - Presnosť + - Návratnosť + - F miera + +## Túto tému dať do DP má veľký význam aspoň podkapitola +**Lingvistické problémy Information Retreival v slovečine** + +- aby sme mohli implementovať systém IR pre slovenský jazyk, alebo podobný jazyk ako je slovenčina je potrebné zohľadniť nasledujúce špecifické problémy: + - streaming or lemmatization + - viacslovnsé výrazy a pomenované entity + - synonymá a hononymá + +- jedným hlavným problémom, ktorý je špecifický pre slovenský jazyk je identifikovanie slov v texte +- prvý krok je vykonanie morfologickej analýzi na identifikáciu pôvodnej základnej morfologickej formy +- pre slovenský jazyk v tomto článku bola navrhnutá morfologická forma s využitím skrytého Markovho modelu. +- skoro rovanký prístup môžeme zvoliť aj pre indetifikáciu koreňa slova s použitím systému, ktorí je založený na. pravidlách (Hunspell)