From 025a444027ca9ef5530e136ea299ba8428c6fd4c Mon Sep 17 00:00:00 2001 From: Michal Stromko Date: Mon, 26 Dec 2022 11:57:32 +0000 Subject: [PATCH] Update 'pages/students/2019/michal_stromko/vp2023/Dokumentacia.md' --- .../2019/michal_stromko/vp2023/Dokumentacia.md | 14 +++++++++++++- 1 file changed, 13 insertions(+), 1 deletion(-) diff --git a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md index f3b11adb..94af13de 100644 --- a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md +++ b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md @@ -38,4 +38,16 @@ DPR nazývame ako typ systému, spracovania prirodzeného jazyka (NLP). Tento sy Aj keď existujú silnejšie modelové formy na meranie podobnosti medzi otázkou a pasážou, ako sú siete pozostávajúce z viacerých vrstiev krížovej pozornosti, ktorá musí byť rozložiteľná, aby sme mohli vopred vypočítať kolekcie pasáží. Väčšina rozložiteľných funkcii podobnosti používa transformácie euklidovskej vzdialenosti. **Cross Attentions** (krížová pozornosť) -Cross Attentions v DPR je technika, ktorá sa používa na zlepšenie presnosti procesu vyhľadávania. Funguje tak, že umožňuje modelu pracovať s viacerými pasížami naraz, čo umožňuje identifikovanie najrelevantnejších pasáží. \ No newline at end of file +Cross Attentions v DPR je technika, ktorá sa používa na zlepšenie presnosti procesu vyhľadávania. Funguje tak, že umožňuje modelu pracovať s viacerými pasížami naraz, čo umožňuje identifikovanie najrelevantnejších pasáží. Pre pre správne identifikovanie DPR berie do úvahy kontext každej pasáže. V prvom kroku najskôr model identifikuje kľúčové výrazy v dotaze a následne použije sémantickú analýzu na identifikáciu súvisiacich výrazov. Mechanizmus pozornisti umožňuje modelu zamerať sa na najdôležitejšie slová v každej pasáži, zatiaľ čo algoritmu strojového učenia pomáha modelu s identifikáciou. + +V ďalšom kroku _Cross Attentions_ používa systém bodovania na hodnotenie získaných pasáží. Bodovací systém berie do úvahy relevantnosť pasáží k dopytu, dĺžku pasáží a počet výskytov dopytovacích výrazov v pasážach. Posledným dôležitým atribútom, ktorý sa zisťuje je miera súvislosti nájdeného výrazu k výrazu dopytu. + +**Pozitívne a negatívne pasáže** (Positive and Negative passages) +Časté problémy, ktoré vznikajú pri vyhľadávaní sú spojené s opakujúcimi sa pozitívnymi výsledkami, zatiaľ čo negatívne výsledky sa vyberajú z veľkej množiny. Ako príklad si môžeme uviesť pasáž, ktorá súvisí s otázkou a nachádza sa v súbore QA a dá sa nájsť pomocou odpovede. Všetky ostatné pasáže aj keď nie sú explicitne špecifikované, môžu byť predvolene považované za irelevantné. +Poznáme tri typy negatívnych odpovedí: +- **Náhodný (Random)** + - Je to akákoľvek náhodná pasáž z korpusu +- **BM25** + - Top pasáže vracajúce BM25, ktoré neobsahujú odpoveď, ale zodpovedajú väčšine otázkou +- **Zlato (Gold)** + - Pozitívne pasáže párované s ostatnými otázkami, ktoré sa objavili v trénovacom súbore \ No newline at end of file