zpwiki/pages/students/2019/michal_stromko/dp2024/EvaluationSetforSlovakNewsInformationRetrieval.md

2.2 KiB

Evaluation Set for Slovak News Information Retrieval

Vyhodnocovací datset pre vyhľadávanie informácii

Poznámky

  • článok ukazuje ako vytvoriť vyhodnocovací súbor (databázu) otázok a odpovedí v slovenčine pre rôzne typy úloh v NLP.
  • databáza je kompatibilná s datasetom Cranfield
  • táto databáza je zostavená z relevantých dokumentov pre vyhodnotenie vyhľadávania
  • v databáze sa nachádzajú tieto polia:
    • názov článku
    • meno autora
    • dátum publikovania článku
    • text článku
    • kategória článku (napr. politika, ekonomika)
  • databáza obsahuje 3980 novinových článkov rozdelených do 6tich kategórii: ekonomika a podnikanie, kultúra, šport, domáce správy, svetové správy a zdravotníctvo
  • v databáze môžeme nájsť aj 80 otázok, ktoré sa týkajú novynových článkov.
  • každej jednej otázke je priradený atribút, ktorí hovorí relevanciu danej otázky v intervale 1 - 4

Vyhodnotenie vyhľadávania informácii

  • je to proces merania ako dobrý je daný systém, ktorý vyhľadáva informácie v danej databáze na základe preddefinovaných kritérii
  • pre vyhodnotenie potrebujeme relevantné dokumenty, v ktorých sa nachádza odpoveď na otázku
  • Vyhodnotenie vieme zapísať pomocou rôznych metrík ako:
    • Presnosť
    • Návratnosť
    • F miera

## Túto tému dať do DP má veľký význam aspoň podkapitola Lingvistické problémy Information Retreival v slovečine

  • aby sme mohli implementovať systém IR pre slovenský jazyk, alebo podobný jazyk ako je slovenčina je potrebné zohľadniť nasledujúce špecifické problémy:

    • streaming or lemmatization
    • viacslovnsé výrazy a pomenované entity
    • synonymá a hononymá
  • jedným hlavným problémom, ktorý je špecifický pre slovenský jazyk je identifikovanie slov v texte

  • prvý krok je vykonanie morfologickej analýzi na identifikáciu pôvodnej základnej morfologickej formy

  • pre slovenský jazyk v tomto článku bola navrhnutá morfologická forma s využitím skrytého Markovho modelu.

  • skoro rovanký prístup môžeme zvoliť aj pre indetifikáciu koreňa slova s použitím systému, ktorí je založený na. pravidlách (Hunspell)