Update 'pages/students/2019/michal_stromko/vp2023/Dokumentacia.md'

This commit is contained in:
Michal Stromko 2023-02-01 17:52:39 +00:00
parent 46836c436f
commit 7a75e080c9

View File

@ -54,8 +54,13 @@ Faiss používal knižnicu spacy, do ktorej parameter model_name vstupoval model
#### BM25
BM25 je jeden z najstarších možností vyhľadávania v neuónových sieťach, napriek tomu je to stále stabilná a relatívne presná aj v dnešnej dobe
??? Aký model som používal???
BM25 je jeden z najstarších možností vyhľadávania v neuónových sieťach, napriek tomu je to stále stabilná a relatívne presná aj v dnešnej dobe.
Pri vyhľadávaní informácii v BM25, ktorý je označný ako Okapi a funguje na vyhľadávaní najlepšej zhode. Vyhľadávanie funguje na nájdení najlepších dokumentov, ktoré sú zoradené podľa relevantnosti k vyhľadanej požiadavke. Je založený na zoradení na pravdepodobnostnom rámci. BM 25 bol v priebehu rokov modifikovaný a vylepšovaný.
Pre vypočítanie skóra používa Inverse documents frequency (IDF) Vypočtava sa ako N a značí celkový počet dokumentov. Pri výpočte sa používa maximálna hodnota zo všetkých indexov, ktorá pochádza z najväčšieho indexu disku. Pre lepšie pochopenie IDF vypočítava uzol obsahu a index, treba však rátať s tým, že sa môžu vyskytovať mierne odchylky.
Jedným z dôležitých atribútov, je či sa konenčný výsledný dokument vyskytne viackrát v relevantých odpovediach. Čím viac krát sa opakuje jeden dokument opakuje, tým je väčšia pravdepodobnoť, že bude označený za jeden z najlepších výsledkov vyhľadávania.
Evaluovanie pomocou modelu LaBSE a sts-slovakbert-stst som realizoval použítím knižnice **Sentence tranformers**. Práca s touto knižnicou je veľmi jednoduchá, pretože v dokumentácii, ktorú obsahuje, vieme veľmi jednodochu zaembedovať dokumenty a zároveň aj vyhľadávať.