# Evaluation Set for Slovak News Information Retrieval Vyhodnocovací datset pre vyhľadávanie informácii ## Poznámky - článok ukazuje ako vytvoriť vyhodnocovací súbor (databázu) otázok a odpovedí v slovenčine pre rôzne typy úloh v NLP. - databáza je kompatibilná s datasetom Cranfield - táto databáza je zostavená z relevantých dokumentov pre vyhodnotenie vyhľadávania - v databáze sa nachádzajú tieto polia: - názov článku - meno autora - dátum publikovania článku - text článku - kategória článku (napr. politika, ekonomika) - databáza obsahuje 3980 novinových článkov rozdelených do 6tich kategórii: ekonomika a podnikanie, kultúra, šport, domáce správy, svetové správy a zdravotníctvo - v databáze môžeme nájsť aj 80 otázok, ktoré sa týkajú novynových článkov. - každej jednej otázke je priradený atribút, ktorí hovorí relevanciu danej otázky v intervale 1 - 4 **Vyhodnotenie vyhľadávania informácii** - je to proces merania ako dobrý je daný systém, ktorý vyhľadáva informácie v danej databáze na základe preddefinovaných kritérii - pre vyhodnotenie potrebujeme relevantné dokumenty, v ktorých sa nachádza odpoveď na otázku - Vyhodnotenie vieme zapísať pomocou rôznych metrík ako: - Presnosť - Návratnosť - F miera ## Túto tému dať do DP má veľký význam aspoň podkapitola **Lingvistické problémy Information Retreival v slovečine** - aby sme mohli implementovať systém IR pre slovenský jazyk, alebo podobný jazyk ako je slovenčina je potrebné zohľadniť nasledujúce špecifické problémy: - streaming or lemmatization - viacslovnsé výrazy a pomenované entity - synonymá a hononymá - jedným hlavným problémom, ktorý je špecifický pre slovenský jazyk je identifikovanie slov v texte - prvý krok je vykonanie morfologickej analýzi na identifikáciu pôvodnej základnej morfologickej formy - pre slovenský jazyk v tomto článku bola navrhnutá morfologická forma s využitím skrytého Markovho modelu. - skoro rovanký prístup môžeme zvoliť aj pre indetifikáciu koreňa slova s použitím systému, ktorí je založený na. pravidlách (Hunspell)