From 7a75e080c9850f59cc09ac869c8fc27621d330e4 Mon Sep 17 00:00:00 2001 From: Michal Stromko Date: Wed, 1 Feb 2023 17:52:39 +0000 Subject: [PATCH] Update 'pages/students/2019/michal_stromko/vp2023/Dokumentacia.md' --- .../students/2019/michal_stromko/vp2023/Dokumentacia.md | 9 +++++++-- 1 file changed, 7 insertions(+), 2 deletions(-) diff --git a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md index 44a0476fd..8f341fa5b 100644 --- a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md +++ b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md @@ -54,8 +54,13 @@ Faiss používal knižnicu spacy, do ktorej parameter model_name vstupoval model #### BM25 -BM25 je jeden z najstarších možností vyhľadávania v neuónových sieťach, napriek tomu je to stále stabilná a relatívne presná aj v dnešnej dobe -??? Aký model som používal??? +BM25 je jeden z najstarších možností vyhľadávania v neuónových sieťach, napriek tomu je to stále stabilná a relatívne presná aj v dnešnej dobe. + +Pri vyhľadávaní informácii v BM25, ktorý je označný ako Okapi a funguje na vyhľadávaní najlepšej zhode. Vyhľadávanie funguje na nájdení najlepších dokumentov, ktoré sú zoradené podľa relevantnosti k vyhľadanej požiadavke. Je založený na zoradení na pravdepodobnostnom rámci. BM 25 bol v priebehu rokov modifikovaný a vylepšovaný. + + Pre vypočítanie skóra používa Inverse documents frequency (IDF) Vypočtava sa ako N a značí celkový počet dokumentov. Pri výpočte sa používa maximálna hodnota zo všetkých indexov, ktorá pochádza z najväčšieho indexu disku. Pre lepšie pochopenie IDF vypočítava uzol obsahu a index, treba však rátať s tým, že sa môžu vyskytovať mierne odchylky. + + Jedným z dôležitých atribútov, je či sa konenčný výsledný dokument vyskytne viackrát v relevantých odpovediach. Čím viac krát sa opakuje jeden dokument opakuje, tým je väčšia pravdepodobnoť, že bude označený za jeden z najlepších výsledkov vyhľadávania. Evaluovanie pomocou modelu LaBSE a sts-slovakbert-stst som realizoval použítím knižnice **Sentence tranformers**. Práca s touto knižnicou je veľmi jednoduchá, pretože v dokumentácii, ktorú obsahuje, vieme veľmi jednodochu zaembedovať dokumenty a zároveň aj vyhľadávať.