From 857734f725a20909404bb4aac252d869f89e8715 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 25 Nov 2022 09:37:00 +0000 Subject: [PATCH 01/30] Update 'pages/students/2018/david_ilas/README.md' --- pages/students/2018/david_ilas/README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/pages/students/2018/david_ilas/README.md b/pages/students/2018/david_ilas/README.md index 1a42f1d880..b5ba59493b 100644 --- a/pages/students/2018/david_ilas/README.md +++ b/pages/students/2018/david_ilas/README.md @@ -10,6 +10,7 @@ taxonomy: Rok začiatku štúdia: 2018 +Už neštuduje tento študijný program. ## Diplomová práca 2023 From 2ad4bd283c24fc20a26186546c1bd1638ce368ad Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 25 Nov 2022 09:38:56 +0000 Subject: [PATCH 02/30] Update 'pages/students/2017/martin_jancura/README.md' --- pages/students/2017/martin_jancura/README.md | 40 ++++++++++++++++++++ 1 file changed, 40 insertions(+) diff --git a/pages/students/2017/martin_jancura/README.md b/pages/students/2017/martin_jancura/README.md index 0cf1054b63..96807c7977 100644 --- a/pages/students/2017/martin_jancura/README.md +++ b/pages/students/2017/martin_jancura/README.md @@ -12,6 +12,46 @@ taxonomy: ## Diplomový projekt + +Téma: Rozpoznávanie emócií z textu. + +TODO: Návrh na zadanie diplomovej práce. + +Ciele: + +- Vedieť klasifikovať emocionálny náboj v texte pomocou neurónovej siete. + +Ciele na semester: + +- Získať prehľad v problematike rozpoznávania emócií z textu +- Vybrať dátovú množinu, vybrať vhodný klasifikátor, natrénovať model a vyhodnotiť výsledky. + +Informácie: + +- [Hate speech Project](/topics/hatespeech) +- https://www.sciencedirect.com/topics/computer-science/emotion-detection + +Stretnutie 25.11. + +Stav: + +- Vieme parsovať Disqus fóra z topky.sk. + +Úlohy: + +- Vyberte 3 vedecké články, prečítajte si ich a napíšte poznámky čo ste sa dozvedeli. Poznačte si bibliografické informácie o článkoch. +- Heslá na vyhľadávanie: eomotion recognition, transfer learning, deep learning, emotion classification, emotion detection +- Na vyhľadávanie článkov použite google scholar alebo scopus.com. +- Nainštalujte si balíček Anaconda +- Prejdite si niekoľko Python tutoriálov, odporúčam online knihu Dive Into Python 3 + +Zásobník úloh: + +- Oboznámte sa s knižnicou Huggingface Transformers + + + + Stretnutie 8.6. Stav: From 5fd78c2e28c48de45a015d23945d59f94794133e Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 25 Nov 2022 09:50:20 +0000 Subject: [PATCH 03/30] Update 'pages/students/2017/martin_jancura/README.md' --- pages/students/2017/martin_jancura/README.md | 16 ++++++---------- 1 file changed, 6 insertions(+), 10 deletions(-) diff --git a/pages/students/2017/martin_jancura/README.md b/pages/students/2017/martin_jancura/README.md index 96807c7977..235537f86d 100644 --- a/pages/students/2017/martin_jancura/README.md +++ b/pages/students/2017/martin_jancura/README.md @@ -35,20 +35,16 @@ Stretnutie 25.11. Stav: -- Vieme parsovať Disqus fóra z topky.sk. +- Vieme parsovať Disqus fóra z topky.sk. Vieme získať nadpis a hlavičku článku, tagy článku. Vieme odlíšiť jednotlivé diskusné príspevky. Scraper je v javascripte, knižnica puppeteer. Úlohy: -- Vyberte 3 vedecké články, prečítajte si ich a napíšte poznámky čo ste sa dozvedeli. Poznačte si bibliografické informácie o článkoch. -- Heslá na vyhľadávanie: eomotion recognition, transfer learning, deep learning, emotion classification, emotion detection -- Na vyhľadávanie článkov použite google scholar alebo scopus.com. -- Nainštalujte si balíček Anaconda -- Prejdite si niekoľko Python tutoriálov, odporúčam online knihu Dive Into Python 3 +- Zdrojové texty scrapera dajte do git repozitára. +- Vyberte 3 vedecké články, prečítajte si ich a napíšte poznámky čo ste sa dozvedeli. Poznačte si bibliografické informácie o článkoch. Heslá na vyhľadávanie: eomotion recognition, transfer learning, deep learning, emotion classification, emotion detection. Na vyhľadávanie článkov použite google scholar alebo scopus.com. +- Nainštalujte si balíček Anaconda. Zásobník úloh: -- Oboznámte sa s knižnicou Huggingface Transformers - @@ -62,8 +58,8 @@ Stav: Úlohy: -- Dať kódy na GIT - scraper (twitter, topky) aj tutorial -- Dopísať písomnú správu o tutoriáli (2 až 3 strany) - čo ste sa dozvedeli o BERT, čo ste urobili. Dajte to do README.md. +- [-] Dať kódy na GIT - scraper (twitter, topky) aj tutorial +- [ ] Dopísať písomnú správu o tutoriáli (2 až 3 strany) - čo ste sa dozvedeli o BERT, čo ste urobili. Dajte to do README.md. Stretnutie 20.5.2022 From 36851f4d8cc7463885f3659ff3c074e29bdbc208 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 25 Nov 2022 09:58:00 +0000 Subject: [PATCH 04/30] Update 'pages/students/2017/martin_jancura/README.md' --- pages/students/2017/martin_jancura/README.md | 5 +++-- 1 file changed, 3 insertions(+), 2 deletions(-) diff --git a/pages/students/2017/martin_jancura/README.md b/pages/students/2017/martin_jancura/README.md index 235537f86d..e6b48acba1 100644 --- a/pages/students/2017/martin_jancura/README.md +++ b/pages/students/2017/martin_jancura/README.md @@ -40,8 +40,9 @@ Stav: Úlohy: - Zdrojové texty scrapera dajte do git repozitára. -- Vyberte 3 vedecké články, prečítajte si ich a napíšte poznámky čo ste sa dozvedeli. Poznačte si bibliografické informácie o článkoch. Heslá na vyhľadávanie: eomotion recognition, transfer learning, deep learning, emotion classification, emotion detection. Na vyhľadávanie článkov použite google scholar alebo scopus.com. -- Nainštalujte si balíček Anaconda. +- Nainštalujte si balíček Anaconda a HF transformers. +- Pozrite si tento model https://huggingface.co/cardiffnlp/twitter-xlm-roberta-base-sentiment. Vyskúšajte ho na anglickom texte aj na slovenskom texte. Prečítajte si vedecký článok a urobte si poznámky. +- Prečítajte si článok o modeli XLM a napíšte poznámky. Prečítajte si vedecký článok o datasete, ktorý bol použitý a urobrte si poznámky. Vyhľadajte si dataset na huggingface HUB a pozrite sa ako vyzerá. Na vyhľadávanie použite TUKE sieť a google scholar. Zásobník úloh: From d425a1b64b19db2daa8b79f08a53952521caa28b Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 25 Nov 2022 10:04:16 +0000 Subject: [PATCH 05/30] Update 'pages/students/2017/martin_jancura/README.md' --- pages/students/2017/martin_jancura/README.md | 10 +++++++--- 1 file changed, 7 insertions(+), 3 deletions(-) diff --git a/pages/students/2017/martin_jancura/README.md b/pages/students/2017/martin_jancura/README.md index e6b48acba1..76d7f58cc7 100644 --- a/pages/students/2017/martin_jancura/README.md +++ b/pages/students/2017/martin_jancura/README.md @@ -15,7 +15,11 @@ taxonomy: Téma: Rozpoznávanie emócií z textu. -TODO: Návrh na zadanie diplomovej práce. +Návrh na zadanie diplomovej práce: + +- Vypracujte prehľad metód rozpoznávania sentimentu z textu. +- Vyberte vhodný moodel pre rozpoznávanie sentimentu v slovenských textovh. +- Vytvorte slovenskú overovaciu množinu pre rozpoznávanie sentimentu. Ciele: @@ -46,8 +50,8 @@ Stav: Zásobník úloh: - - +- Zo získaných slovenských dát vytvorte overovaciu množinu pre vybranýb model pre klasifikáciu sentimentu. +- Pozrieť či existuje databáza. Stretnutie 8.6. From 37ad32d82c3479e25000644de804a79114ccc72d Mon Sep 17 00:00:00 2001 From: dano Date: Mon, 19 Dec 2022 13:05:41 +0000 Subject: [PATCH 06/30] Update 'pages/students/2019/michal_stromko/README.md' --- pages/students/2019/michal_stromko/README.md | 17 +++++++++++++++++ 1 file changed, 17 insertions(+) diff --git a/pages/students/2019/michal_stromko/README.md b/pages/students/2019/michal_stromko/README.md index 842d185f32..4b91419bd0 100644 --- a/pages/students/2019/michal_stromko/README.md +++ b/pages/students/2019/michal_stromko/README.md @@ -49,6 +49,23 @@ Klucove slova: - LABSE, LASER embedding model - multi language IR +Stretnutie 19.12.2022 + +Stav: + +- Spustený skript pre vyhodnotenie + +Úlohy: + +- Pripravte testovací scenár. Množina SK QUAD. Vyhľadávame v paragrafoch. Pri vyhľadávaní nás zaujíma k najlepších výsledkov. K=1,5,10,20,30 +- V testovacom scenári vyskúšqjte viacero modelov. WordEmbedding, LABSE, SlovakBERT, BN25 +- V texte opíšte použíté modely, dataset aj testovací scenár. +- Z výsledky by mohol byť konferenčný článok. + +Zásobník úloh: + +- Natrénujte model Kharpikun DPR, podľa Facebook skriptov alebo pomocou Nvidia Deep learning examples. + Stretnutie 10.11.2022 Stav: From c28de252be46a92d519a3e8cf10477bb5d986406 Mon Sep 17 00:00:00 2001 From: dano Date: Mon, 19 Dec 2022 13:09:15 +0000 Subject: [PATCH 07/30] Update 'pages/students/2019/michal_stromko/README.md' --- pages/students/2019/michal_stromko/README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/pages/students/2019/michal_stromko/README.md b/pages/students/2019/michal_stromko/README.md index 4b91419bd0..ba9b1cf0ca 100644 --- a/pages/students/2019/michal_stromko/README.md +++ b/pages/students/2019/michal_stromko/README.md @@ -65,6 +65,7 @@ Stav: Zásobník úloh: - Natrénujte model Kharpikun DPR, podľa Facebook skriptov alebo pomocou Nvidia Deep learning examples. +- Vyhodnotte celý proces QA na vrátených výsledkoch. Stretnutie 10.11.2022 From 376a8db2900a2dc74239de3c79b22fc271d385b9 Mon Sep 17 00:00:00 2001 From: dano Date: Mon, 19 Dec 2022 13:38:20 +0000 Subject: [PATCH 08/30] Update 'pages/students/2019/michal_stromko/README.md' --- pages/students/2019/michal_stromko/README.md | 18 ++++++++++++------ 1 file changed, 12 insertions(+), 6 deletions(-) diff --git a/pages/students/2019/michal_stromko/README.md b/pages/students/2019/michal_stromko/README.md index ba9b1cf0ca..708ad7cf2d 100644 --- a/pages/students/2019/michal_stromko/README.md +++ b/pages/students/2019/michal_stromko/README.md @@ -9,14 +9,16 @@ taxonomy: rok začiatku štúdia: 2019 -# Vedecky projekt 2022/23 +# Diplomová práca 2023/24 -Návrh na zadanie diplomovej práce: +Sémantické vyhľadávanie v slovenskom texte. -- Vypracujte prehľad najnovších metód sémantického vyhľadávania pomocou neurónvých sietí. -- Vyberte vhodnú metódu pre vyhľadávanie a modifikujte ju tak aby bola použiteľná pre slovenské texty. -- S vybranou metódou vykonajte experiment s vyhľadávaním. Metódu porovnajte s najmenej jednou inou metódou. -- Vyhodnoťte experimenty a identifikujte slabé miesta a navrhnite zlepšenia. +Zadanie práce: + +1. Vypracujte prehľad najnovších metód sémantického vyhľadávania pomocou neurónových sietí. +2. Vyberte vhodné metódy pre vyhľadávanie a modifikujte ich tak aby boli použiteľné pre slovenské texty. +3. Pripravte experimenty na vyhodnotenie vyhľadávania. Porovnajte vybrané metódy. +4. Vyhodnoťte experimenty a identifikujte slabé miesta a navrhnite zlepšenia. Ciele DP: @@ -24,6 +26,10 @@ Ciele DP: - Dotrénovať slovenský ST model. - Porovnať viacero metód na vyhľadávanie v slovenskom texte - BM25, TF IDF, WordEmbedding, SentenceTransformers, Alebo iné embeddingy. + +# Vedecky projekt 2022/23 + + Súvisiace práce: - Matej Kobyľan From 6a3d7ff793acefccaff585734096e9c42b2fe414 Mon Sep 17 00:00:00 2001 From: dano Date: Mon, 19 Dec 2022 13:49:11 +0000 Subject: [PATCH 09/30] Update 'pages/students/2019/kristian_sopkovic/README.md' --- pages/students/2019/kristian_sopkovic/README.md | 10 ++++++++++ 1 file changed, 10 insertions(+) diff --git a/pages/students/2019/kristian_sopkovic/README.md b/pages/students/2019/kristian_sopkovic/README.md index ebeb8c74b0..6c8c63d5c9 100644 --- a/pages/students/2019/kristian_sopkovic/README.md +++ b/pages/students/2019/kristian_sopkovic/README.md @@ -12,6 +12,16 @@ rok začiatku štúdia: 2019 # Diplomová práca 2024 +Neurónové vyhľadávanie na základe sémantickej podobnosti vektorov. + +1. Vypracujte prehľad metód neurónovej vektorovej reprezentácie viet alebo odsekov. +1. Pripravte trénovaciu množinu a natrénujte model vektorovej reprezentácie dokumentov. +1. Vyhodnoťte natrénovaný model vo viacerých experimentoch. +1. Identifikujte slabé miesta modelu a navrhnite jeho zlepšenia. + +Zadanie sa ešte môže zmeniť. + + Súvisiace práce: Michal Stromko Cieľ je zlepšiť slovenské vyhľadávanie pomocou neurónových sietí. From bf94f4b7fa56b09312e803a7796df3b78b69877f Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 22 Dec 2022 09:24:05 +0000 Subject: [PATCH 10/30] Update 'pages/students/2018/ondrej_megela/README.md' --- pages/students/2018/ondrej_megela/README.md | 11 +++++++++++ 1 file changed, 11 insertions(+) diff --git a/pages/students/2018/ondrej_megela/README.md b/pages/students/2018/ondrej_megela/README.md index d483644b34..0be549b727 100644 --- a/pages/students/2018/ondrej_megela/README.md +++ b/pages/students/2018/ondrej_megela/README.md @@ -30,6 +30,17 @@ Súvisiace práce: Cieľ: Využiť slovenský generatívny model na tvorbu databázy otázok a odpovedí. +Stretnutie 22.12. + +- Slovenský GPT model nefunguje na few shot generovanie otázok. +- Existuje slovenský T5 model small. Ten funguje. +- Vyskúšaný finetuning na colabe na slovenský T5 model na anglických dátach, zbehol za 1.5. hodiny. +- Nájdený QA evaluátor, ktorý ohodnotí vygenerované otázky pomocou BERT. Evaluátor hodnotí, či otázka a odpovedˇ sedia spolu. Trénuje sa na rovnakom datasete ako generátor. + + + + + Stretnutie 28.10 From 7ce7063e705188b59b209cf7743b9ea4f30b8a1b Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 22 Dec 2022 09:27:33 +0000 Subject: [PATCH 11/30] Update 'pages/students/2018/ondrej_megela/README.md' --- pages/students/2018/ondrej_megela/README.md | 8 +++++--- 1 file changed, 5 insertions(+), 3 deletions(-) diff --git a/pages/students/2018/ondrej_megela/README.md b/pages/students/2018/ondrej_megela/README.md index 0be549b727..7505b5388a 100644 --- a/pages/students/2018/ondrej_megela/README.md +++ b/pages/students/2018/ondrej_megela/README.md @@ -30,15 +30,17 @@ Súvisiace práce: Cieľ: Využiť slovenský generatívny model na tvorbu databázy otázok a odpovedí. +https://git.kemt.fei.tuke.sk/om385wg/DP + + Stretnutie 22.12. - Slovenský GPT model nefunguje na few shot generovanie otázok. - Existuje slovenský T5 model small. Ten funguje. - Vyskúšaný finetuning na colabe na slovenský T5 model na anglických dátach, zbehol za 1.5. hodiny. - Nájdený QA evaluátor, ktorý ohodnotí vygenerované otázky pomocou BERT. Evaluátor hodnotí, či otázka a odpovedˇ sedia spolu. Trénuje sa na rovnakom datasete ako generátor. - - - +- QA evaluátor a generátor https://github.com/AMontgomerie/question_generator +- Finetuning slovenského T5 https://colab.research.google.com/drive/1z-Zl2hftMrFXabYfmz8o9YZpgYx6sGeW?usp=sharing From c046bc0dfd64f045bec24b91b0935dd3df623882 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 22 Dec 2022 09:41:06 +0000 Subject: [PATCH 12/30] Update 'pages/students/2018/ondrej_megela/README.md' --- pages/students/2018/ondrej_megela/README.md | 15 +++++++++++++++ 1 file changed, 15 insertions(+) diff --git a/pages/students/2018/ondrej_megela/README.md b/pages/students/2018/ondrej_megela/README.md index 7505b5388a..b7c757e048 100644 --- a/pages/students/2018/ondrej_megela/README.md +++ b/pages/students/2018/ondrej_megela/README.md @@ -42,6 +42,21 @@ Stretnutie 22.12. - QA evaluátor a generátor https://github.com/AMontgomerie/question_generator - Finetuning slovenského T5 https://colab.research.google.com/drive/1z-Zl2hftMrFXabYfmz8o9YZpgYx6sGeW?usp=sharing +Úlohy: + +- Pracovať na textovej časti DP a.k.a. ATKS +- Skontrolovať a na ďalšom stretnutí updatovať zadanie DP. +- Dokončiť skripty a generovať otázky pre slovenský jazyk. +- Vyhodnotiť kvalitu generovania otázok. +- Pripraviť experiment, kde vo viacerých scenároch (finetuning, few shot) generujeme otázky. + +Zásobník úloh: + +- Pripraviť článok (do časopisu). Najprv prekladom z DP. +- Pripraviť aj out-of-domain test - iná doména (noviny, úäradné dokumenty). Iný jazyk. Porovnanie slovenského a anglického generovanie. +- Pripraviť test, kde odmieriame prínos automaticky generovanej databázy na probmém question answering. +- Použiť generátor pri manuálnej anotácii. Človek môže hodnotiť kvalitu generovanej otázky alebo ju opraviť. + Stretnutie 28.10 From ad6fb599c6ab244d4947c9a80e053e0a24600a97 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 23 Dec 2022 11:55:10 +0000 Subject: [PATCH 13/30] Update 'pages/students/2019/kristian_sopkovic/README.md' --- pages/students/2019/kristian_sopkovic/README.md | 6 ++++++ 1 file changed, 6 insertions(+) diff --git a/pages/students/2019/kristian_sopkovic/README.md b/pages/students/2019/kristian_sopkovic/README.md index 6c8c63d5c9..a7015e6ff9 100644 --- a/pages/students/2019/kristian_sopkovic/README.md +++ b/pages/students/2019/kristian_sopkovic/README.md @@ -31,6 +31,12 @@ Námety na tému: - Natrénujte alebo dotrénujte Sentence Transformer Model, alebo iný model pre sémantícké vyhľadávanie. Aké sú potrebné databázy? Je možné dotrénovať multilinguálny model? - Vytvorte databázu pre trénovanie SBERT. Strojový preklad, existujúcej NLI databázy, Semantic Textual Similarity databázy. Alebo ak získame grant, tak vytvoríme "originálnu" (klon) slovenskú databázu. + +[Slovak Semantic Textual Similarity Benchmark](https://huggingface.co/datasets/crabz/stsb-sk) +na trénovanie Sentence Transformer. + + + Stretnutie 24.11. Úlohy: From 3c1226112348db3fa47505f563342097ccbc3a95 Mon Sep 17 00:00:00 2001 From: Michal Stromko Date: Sun, 25 Dec 2022 09:59:39 +0000 Subject: [PATCH 14/30] Add 'pages/students/2019/michal_stromko/vp2023/Dokumentacia.md' --- .../michal_stromko/vp2023/Dokumentacia.md | 28 +++++++++++++++++++ 1 file changed, 28 insertions(+) create mode 100644 pages/students/2019/michal_stromko/vp2023/Dokumentacia.md diff --git a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md new file mode 100644 index 0000000000..9587a0bf02 --- /dev/null +++ b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md @@ -0,0 +1,28 @@ +

+ TECHNICKÁ UNIVERZITA V KOŠICIACH
+ FAKULTA ELEKTRONIKY A INFORMATIKY
+

+



+ +

Hodnotenie vyhľadávania modelu

+






+ + +

+ 2022 + + Michal Stromko + +

+
+ +

+ +# Úvod + +Cieľom tejto práce je zoznámenie sa s možnosťami hodnotenia modelov. Natrénovaný model dokáže vyhodnocovať viacerými technikami s použitím rôzdnych open source riešení. Každé z riešení nám ponúkne iné výsledky. V tejto práci bližšie opíšem základné pojmy, ktoré je potrebné poznať pri hodnotení. Opíšem základné informácie o technikách hodnotenia od základných pojmov ako Vektorové vyhľadávania, DPR, Sentence Transformers, BM-25, Faiss a mnoho ďalších. + + +# Základné znalosti + +Na začiatok je potrebné povedať, že spracovaní prirodzeného jazyka dokážeme používať rôzne metódy prístupu hodnotenia modelu, poprípade aj vyhľadávanie v modeli. Poslených rokoch sa v praxi stretávame s vyhľadávaním na základe vypočítania vektorov. From 14779680b6e8254b8a669e4f14134cac48f5884e Mon Sep 17 00:00:00 2001 From: Michal Stromko Date: Sun, 25 Dec 2022 21:42:51 +0000 Subject: [PATCH 15/30] Update 'pages/students/2019/michal_stromko/vp2023/Dokumentacia.md' --- pages/students/2019/michal_stromko/vp2023/Dokumentacia.md | 8 +++++++- 1 file changed, 7 insertions(+), 1 deletion(-) diff --git a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md index 9587a0bf02..dd333b1a38 100644 --- a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md +++ b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md @@ -25,4 +25,10 @@ Cieľom tejto práce je zoznámenie sa s možnosťami hodnotenia modelov. Natré # Základné znalosti -Na začiatok je potrebné povedať, že spracovaní prirodzeného jazyka dokážeme používať rôzne metódy prístupu hodnotenia modelu, poprípade aj vyhľadávanie v modeli. Poslených rokoch sa v praxi stretávame s vyhľadávaním na základe vypočítania vektorov. +Na začiatok je potrebné povedať, že pri spracovaní prirodzeného jazyka dokážeme používať rôzne metódy prístupu hodnotenia modelu, poprípade aj vyhľadávanie v modeli. V poslených rokoch sa v praxi stretávame s vyhľadávaním na základe vypočítania vektorov. Následne na takto vypočítané vektory dokážeme pomocou kosínusovej vzdialenosti nájsť vektory, inak povedané dve čísla, ktoré sú k sebe najblyžšie. Jedno z čísel je z množiny vektorov, ktoré patria hľadanému výrazu, druhé číslo patrí slovu, alebo vete, ktorá sa nacháza v indexe. + +Pre uľahčenie pochopenia tejto problematiky, postupne vysvetlím vypočítanie a následné hladanie dvoch vektorov v tomto článku. Treba však poznamenať, že každá metóda má vlastné vypočítanie vektora spolu s hľadaním podobného vektora. + +### Dense Passage Retriever (DPR) + + From 47f56e9eaba04815766dbe0abf93a4d7ef6579f4 Mon Sep 17 00:00:00 2001 From: Michal Stromko Date: Mon, 26 Dec 2022 09:03:52 +0000 Subject: [PATCH 16/30] Update 'pages/students/2019/michal_stromko/vp2023/Dokumentacia.md' --- pages/students/2019/michal_stromko/vp2023/Dokumentacia.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md index dd333b1a38..7947e0346e 100644 --- a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md +++ b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md @@ -31,4 +31,6 @@ Pre uľahčenie pochopenia tejto problematiky, postupne vysvetlím vypočítanie ### Dense Passage Retriever (DPR) +DPR nazývame ako typ systému, spracovania prirodzeného jazyka (NLP). Tento systém získava relevantné časti, inak povedané pasáže z veľkého korpusu textu. V kombinácii s sémantickou analýzou a algoritmom strojového učenia, ktorý idenetifikuje najrelevantnejšie pasáže pre daný dopyt. DPR je založený na používaní správneho enkódera, ktorý mapuje text na dimenzionálne vektory skutočnej hodnoty a vytvára index M, ktorý sa používa pre vyhľadávanie. Treba však povedať, že počas behu DPR sa aplikuje aj iný enkóder **EQ**, ktorý mapuje vstupnú otázku na d-rozmerný vektor a následne hľadá tie vektory, ktoré sú najbližšie k vektoru otázky. Podobnosť medzi otázkou a časťou odpovede definujeme pomocou **Bodového súčinu ich vektorov**. + From cc8452ef414a8012e21423ed17f22e866c04263a Mon Sep 17 00:00:00 2001 From: Michal Stromko Date: Mon, 26 Dec 2022 09:04:39 +0000 Subject: [PATCH 17/30] vzorec --- .../students/2019/michal_stromko/img/vzorec.png | Bin 0 -> 7259 bytes 1 file changed, 0 insertions(+), 0 deletions(-) create mode 100644 pages/students/2019/michal_stromko/img/vzorec.png diff --git a/pages/students/2019/michal_stromko/img/vzorec.png b/pages/students/2019/michal_stromko/img/vzorec.png new file mode 100644 index 0000000000000000000000000000000000000000..26026392aeb3141e01c21646cec50d3f4049d8c7 GIT binary patch literal 7259 zcmb_=Wmp_rv+giBgx~~ca37rDu7d|BxCR+KxVu||1&0tMKybI<5`w$CI|L1!$=>^u zd(Yp~&$GI!tKO>Ws#>eNS4XNU%VMArqX7T_40$=JHvj+}5XQ5kAi>V}QLYjI09t{y zq@=36q$Ehy*}>A<&H@0Ci%d>I)==Na33&FNBw@wc4_QIjM@Yc&+G~r1$N@ueBtR&0 z$-Vgc=uA|(6~%aJj;sM?h*ieo2zZrj129oEB1!QnFubzmwDsm^hBw`1R@3FE=w;5s z?h61O=UWEFPz!(@u6d+HtNy;)IEU+!iv!)T;Orpo-OXzNDy3+*O3_`x85=8X%?#@;k=Y?XtF))-ephi#ThuR?gfW zw~ou%E=ff z011)@w$RN8>G>Lwt1C<-tU&Gywp@g%KwfqLom?nyCtM={a}6FSP8fkS3_zv{K8N@Bp3Y2Xrex! zPSYyxGLadA!`Rq9Ix}t42ICtOlFITq`y(tjV0bs;qm%y3d| zu+d4vl0_3GQ&g$a`vT`;l9KQe?UL>b9Zz4+6rXCJ#7Cz)4`8Yl#GxU9k`Qr_$Q)o7nt9FYL51*z6W2UAD9tqV9;Z<_km-hiP`qhT(F-gU?GlzaO*RXf(C*-Z?*daOP zIx&pUeb=B`S?O%jfjS>zodkVj#rY1xbD(9+|pNt<>2Z8_GYQKNc^Cn;!ATFj3LNP}?dEtZenc^e%l`T6jA48+i zt!ISiKxx7+Rhzwwv4T8`F8%KMP+_#!D6hgBq~&CLWTs?%VqD`{;z%R(@ahB(v}&EX zMVtANUg2V^<8xK@m<^uLc2~_*Ay)Y+T&M1^v{fm3>K;^I4i~1@q~=6*_el4V#b%fy zS2NG!o|oN5-8#jQSYhtc&W5%`3--Be;a|$&km5$+%HWdWy3@tc^3x~Nv~9GU58pZ@ zwSB;(@mEAuEK$D8CQe^S2vdnx5M)lk{ftua`D@YcXLt12P{gjl7Y{MZM4MDbYMOK( zo49NE708LA1bUD*D0+hDmFKtTbF`$&_>!qJs0a23c!riU1(SBu-OXveXss+3nMO1Z zwJ~627imP&!|nJ2E&sLfSl4~nIx}5HU!kJw?;SiJwt;c_TE^aPPEr&u-)7SJc#5-ezhG)lT|bZG!JBx(rU;*;aiEdP=uC$v4Q)vjg9BOzgA?csHD8 zF)1(|vbwW66swlc>7P4MxEqc7rT)G~o_dK#c6-6~y!(LM_L5iYKr@B3i+o7r>d~=h z{TFo%b)DvrrnIKfSHx*}9!ef<8>p>qd@1>|7V>Q5VP9M?`JupxUu)CK=O<(M^1M9+ zK1z}Ejnqb?d*%CVJHcK)O@F-`*IuH7^e&lVjs~Yz#uDpX{^q8KveEf^g76fsj!#c| zzRH*Scb=h_i(o9aEu&jMj?)dPua(!+g*^(A(BVaLgScj&Q^;BJ&#&#;-;6F>-I}uI z{mz>=uU%drIb^mCHqN^a?`WBYzwb|9oM{+!U2x@HscM^CvY4HoXls0sh<6z+Y&miN zwrsZCGEFkJxcq9xy+gF#e@*1(X)kyR*@4_rG}EW{gk#5P9XFkxRz)*M>&f!=ZFj&( z=biY?_c*J(QF08YFvF+pyN4;qCzqkiB<$G41-0mL7qe_L1Gbb_LO(_y{=3pO%z05J zLy}gJ-$lbYWSeT6-40R??H$V(%KHY_-d}H^xZ=1fqMv=!9(8Wz_ti(N`gVV@B^t@l zX)CUOfpif2LGN}Rj?ZsuPgg_ju)Qtu#3<3|X#i*S!~h64Uj4F~|b3;-xLh{mG%UJ*ke0pXXSO@O(HH~B6ur$1suSpDb#3HoNHX==j6 zMV+D+Zhp@S%g?o9N!Jd)jJQdFPh3!hGuT(FmW7VIrIHeW3C5!U;KHo|2rv!~Hi%&Z z0Dw;l10cgF4s1x}0{^9j1Lng2iwCg(0g9_j%FDy3x|y?ug}uu=2iLF6+ioyd)7Ba~ zt~yGJ0%i_Su!*^YsRh^r>iEY5AmkwcW1$wVCLj-}oxO{IhcMM&2mu)XN6bbA`U~P} zD@>)MqzaOBaJB&Pg4x0BR3c~~5JQA75AAjGcg@^TjBH6qAlNKyNwm%v+4lq00zkS0@h5kqdRINQM>~y89p|JA6Vu*0_ z3H=5CUyA<({4YbD{}^)e{6CierTPCYHC-&6B^{u!h^`|4Y0N)i|6BQwp%B}j#Q&=h ze^>c0DXh#QXhLlNZkY($j|gKr005I+UP@fU1MWBz@dueSRzOkVJIZ%X=!V~yQBP)6 zqrSjNIAVZ%8I^$um@B4%1h(TFC-%L|%j;>dNAyvP`_0zw^C{WB;>F7G@y~^$qq!6B zHXKAJM>IY}IvcdB>|(3a5ALvw7$6uW6FU>A4Cf@irnrXZh}H;lB>w~JK@8*yRPSV5 z3+nWQo$*xBJYqWM|8S1tYeIh^rT?Z3h)X<z`7~I-^YtyoCzuS59aO7%Ll<6EL^!sX(6=U;T z$5WDl+q|^j?RvPtW2%v#?oN*XQ}ZY)eWq&oTT7W1pQ{DiZ-Zy+-P!k@i`b2ueX$=Vl?9bN zlm+%bTTjB&8Ry-r{?Aae1^?&Y7W;*%DS`0FpB&||dCo^(uMU(HWiPnaT%Rnz{k80F zln$+*-#B0`Y8jH1C3Ol>!79WC-=5%cqw0}#JQX4 zLierx-lm~`(Z-Cz|FP=&d0N}3POotBoUpsRVa4W(jNMr5V(Wtn9b5ZtzOUTZ?If1k zF^RzhO3CJ>20gf$zERQVB{vde3LnS(jL(%TKe$FSmwa!QL${e6KfE&Zpq#g>8L^AA z%5;(u5WP6Gh}uo|tpQZBygV%ESIS#^`Ir1#2^G9KWz7er zgUQ;4^M&_0zQ1%iN4O_xD15Kf?0;JZfi(0yx09i9(p_?_*;|Va9T~rArV&Yt_zPhn9m%Y zA*i@pg{g)~uxTJ{UZ~>e|NB~7*QTU!qSY?QZ%UEC!j$o(DW#`c(&sb| zE0aJ(f&^Gg)m&>Vq9NYelMDBH_D$OpA~$npn0FV$Y{zX5tL+3i^5~0lOMVZ>)!&gw z20p4Q>*^@f)t2LmbZ~l*Wkskgd2GgpUT5G7o%i5|RsUMBEh;|iOOz!~Z+EC2m$7cn zlA;!QV=J>q4|sg&BXJ0sy^@a!APmM*8c1f|9&#}kIQb0N)=5zpNM^C zKAvOU9-;|djY(=j>!!78=+OX_SfkdvS?repdFj17U|?yF5}X#Xqy>rn@M@?(h%QE(0#!TEC8gL z-^M|TrC8yIUwUrY(g@}1i769-ed)y?Zg)M!#3J1^b9FexX;*meGs6u(grk-bk6jQV z2iC878@`{`Y_bOgHd=n!4}E3$?h@2EKO{@kW~ndDcC+lBGZM?I3-6=3Q%X`@95qgo z^OpLaAY#&NEaawURHUWi74fr2H*4JC95d3kt$LI(l}v!F-ZS9(*J5)HrgIV*L7T4=@Sgs zx=(1C^?rt138?f_4O2Gi-Bd!jx%4o&<_Bj=|En3q6X_SNW+_(d%kHbm@R&klapinp zk%DXkXY7y~nKK;Po5o(!bs!CzH}8L`u~Ap#2;B}0PQmC*;}5n+cvp5@zgU3{Q6l1o zA_moKP+Ab+ysxadcqd8pMMRH;i}#&|qB}kn=gpD}$@2S}KpRUD@Y|KdZ}#AtdUF3q zCsZ>G*PqR{I$E8xM*h&zTZPa_*oqf&(o!Oh4(G3S!xXvAO*0=tgbRm@f8+Cr!KLlF^&+r7<)y z8GIvf$fU-6J#zK)mLx9TL0Blhprbj`r5hBi4W7U|NfDL0<{$6%{O-0V?SA+#g$&YV zu#8ZD?^9*9=g9g5^!*;%{hk51L<)+-#Bz@^18N)j)-?f~NP3iJbgi=Zm^JCRe)5@p z%ITLa!{2;!%+^?MTVAIX^}LhepeHa4|7Z4XBY!Hy7sz}U8{KT3fOYvL!@fE;2%!!3 zjz7xBNFwjEMbJkWl*nEk-RKYK>3{VD7!!>2$+n_tf+|fgUR*sS6G1Wdi&Qb97}xhP zU5v1qsB@s-Bh88Ui$YCfmoa~8u?GYwku4=l4S-rUPO)xYO_t0;i%{z=c`oX;p@beD z0yO34J3laoQzA3q9Js-;B=Q5k?Ca6aVE6D2Vl+Jp?~odMk0an-`u1zI`KeE6BWkKI z5bIWRc1ombjd6qeAQZr^WeWh4!|93-=>g7UlXEr19eeS$(-?W}=Ge^yxS0Z}LnOGw z$29XtIEPuRHH7Tp!=jhbXt;OIBCx4Vxm)gs^0!gRupC;Bc`3#403!h@;<%QFSO~+- zB6)@$?axmSIQgrT-^Ovj&njYt{4#|SHAL#FbS4k*b!Jw+yePxq#mivK=6a7+dcKe9 zDSp^{f-TN(oUEx;W%bzGhrr&j7%CJ^Zy%fyonhZ>J(3ADKtZT>A`-oXt+q=W7W4&J z8bi6VWiPNk>QLxVF9pTGkq6{#kbKm!B(_S}FUk>-VdXI>1qE2^VpUWk(FLPaStI4m zeTD-jf;3*NSzPK2lzlcZjihDSAe*I)-JzEt6@!mTiP?mIXH^SSRCxhHCnc(i48jM( z@AcAhW!=C&y;z#l3vcIQ0hgS-93<=YdSLzrRDMey%iAT*-(?W3$87?6_k+KWjiY@5Ba6K!8 z8~0egio9PNTo0$P$9A>HDfPEevraB0P@5jf+}lxzpz8OO3Th&U_|is5hc?v@T4W{2 zig+IEF0^V$l2nk>PXGAeyi7Ql7fx<7Ym@7wOsz)I%5{PRE-1=%(m=6hp#^K@vdnnZK@d}_wzwPZW}3t>EkilGJu zf@hN=4@c^$IjL$rvYA3-A}*W1O7&WJkua!sdCZE?Ghg&NZbZ@(=aiU6)+i`Z_d?*~ zbf>N$a}30)3OWOvVs%Mm7#0tvEGXF57Pvf{Xhg1y(1sCw1Qvk|^fj=5HUP!fS%tjs zQ8Yl0%gri>f1gpNE3xd;xSRe^CN_cY+TKTuM0bsFkV&_gm7|84<<~{Q!yX6nAwXY` z&J|F7czOF=O%=&&!lb|7MhU+jxnq)EqR>XQ6tp+BB^yg@@us=h9|4H|`Blh)>fF-1 zM{AIO)jRFq7uTP?Yt2IA3VuDX+5AZvsbdLF{&?Kr6=`0yh(v5zlF0@#ZiV7dq>Nr&Ga7Bm(pk^3EOohG0`HsV>X?bi}JqDd#$%;9NsibRN z{nCk23EC47=lc1b-(UMCcc)cAW+t>j@Ya3B(`vmpg|H*adJi{FxJjxf(HiBKWxv8z zRy5CANC5=sroS9!h%lMURU}2pP<)Qx9UIS8bF8&3e3q!^?k3Q)j9NkSRSYZ0&oft| z8`!DuzC-MbZ<3FVfR#fLj+G7;kU5M*B>v_;-gJw%s=XKK=hduq;^WBFUEc2)TwSd4 zlob(+jlM*s&x`%Mab@)MqOkZld&nU*p3flvr9^EhyBcaxDL5#8m~qS+ZOUl&@G7F! zzbHUG*A=#PWXRfD$y3kug6$Di+j!2g`4J&S0q8*!@+V{hh^4ZyZQ%4w>|JHlRv*e Date: Mon, 26 Dec 2022 09:05:32 +0000 Subject: [PATCH 18/30] Delete 'pages/students/2019/michal_stromko/img/vzorec.png' --- .../students/2019/michal_stromko/img/vzorec.png | Bin 7259 -> 0 bytes 1 file changed, 0 insertions(+), 0 deletions(-) delete mode 100644 pages/students/2019/michal_stromko/img/vzorec.png diff --git a/pages/students/2019/michal_stromko/img/vzorec.png b/pages/students/2019/michal_stromko/img/vzorec.png deleted file mode 100644 index 26026392aeb3141e01c21646cec50d3f4049d8c7..0000000000000000000000000000000000000000 GIT binary patch literal 0 HcmV?d00001 literal 7259 zcmb_=Wmp_rv+giBgx~~ca37rDu7d|BxCR+KxVu||1&0tMKybI<5`w$CI|L1!$=>^u zd(Yp~&$GI!tKO>Ws#>eNS4XNU%VMArqX7T_40$=JHvj+}5XQ5kAi>V}QLYjI09t{y zq@=36q$Ehy*}>A<&H@0Ci%d>I)==Na33&FNBw@wc4_QIjM@Yc&+G~r1$N@ueBtR&0 z$-Vgc=uA|(6~%aJj;sM?h*ieo2zZrj129oEB1!QnFubzmwDsm^hBw`1R@3FE=w;5s z?h61O=UWEFPz!(@u6d+HtNy;)IEU+!iv!)T;Orpo-OXzNDy3+*O3_`x85=8X%?#@;k=Y?XtF))-ephi#ThuR?gfW zw~ou%E=ff z011)@w$RN8>G>Lwt1C<-tU&Gywp@g%KwfqLom?nyCtM={a}6FSP8fkS3_zv{K8N@Bp3Y2Xrex! zPSYyxGLadA!`Rq9Ix}t42ICtOlFITq`y(tjV0bs;qm%y3d| zu+d4vl0_3GQ&g$a`vT`;l9KQe?UL>b9Zz4+6rXCJ#7Cz)4`8Yl#GxU9k`Qr_$Q)o7nt9FYL51*z6W2UAD9tqV9;Z<_km-hiP`qhT(F-gU?GlzaO*RXf(C*-Z?*daOP zIx&pUeb=B`S?O%jfjS>zodkVj#rY1xbD(9+|pNt<>2Z8_GYQKNc^Cn;!ATFj3LNP}?dEtZenc^e%l`T6jA48+i zt!ISiKxx7+Rhzwwv4T8`F8%KMP+_#!D6hgBq~&CLWTs?%VqD`{;z%R(@ahB(v}&EX zMVtANUg2V^<8xK@m<^uLc2~_*Ay)Y+T&M1^v{fm3>K;^I4i~1@q~=6*_el4V#b%fy zS2NG!o|oN5-8#jQSYhtc&W5%`3--Be;a|$&km5$+%HWdWy3@tc^3x~Nv~9GU58pZ@ zwSB;(@mEAuEK$D8CQe^S2vdnx5M)lk{ftua`D@YcXLt12P{gjl7Y{MZM4MDbYMOK( zo49NE708LA1bUD*D0+hDmFKtTbF`$&_>!qJs0a23c!riU1(SBu-OXveXss+3nMO1Z zwJ~627imP&!|nJ2E&sLfSl4~nIx}5HU!kJw?;SiJwt;c_TE^aPPEr&u-)7SJc#5-ezhG)lT|bZG!JBx(rU;*;aiEdP=uC$v4Q)vjg9BOzgA?csHD8 zF)1(|vbwW66swlc>7P4MxEqc7rT)G~o_dK#c6-6~y!(LM_L5iYKr@B3i+o7r>d~=h z{TFo%b)DvrrnIKfSHx*}9!ef<8>p>qd@1>|7V>Q5VP9M?`JupxUu)CK=O<(M^1M9+ zK1z}Ejnqb?d*%CVJHcK)O@F-`*IuH7^e&lVjs~Yz#uDpX{^q8KveEf^g76fsj!#c| zzRH*Scb=h_i(o9aEu&jMj?)dPua(!+g*^(A(BVaLgScj&Q^;BJ&#&#;-;6F>-I}uI z{mz>=uU%drIb^mCHqN^a?`WBYzwb|9oM{+!U2x@HscM^CvY4HoXls0sh<6z+Y&miN zwrsZCGEFkJxcq9xy+gF#e@*1(X)kyR*@4_rG}EW{gk#5P9XFkxRz)*M>&f!=ZFj&( z=biY?_c*J(QF08YFvF+pyN4;qCzqkiB<$G41-0mL7qe_L1Gbb_LO(_y{=3pO%z05J zLy}gJ-$lbYWSeT6-40R??H$V(%KHY_-d}H^xZ=1fqMv=!9(8Wz_ti(N`gVV@B^t@l zX)CUOfpif2LGN}Rj?ZsuPgg_ju)Qtu#3<3|X#i*S!~h64Uj4F~|b3;-xLh{mG%UJ*ke0pXXSO@O(HH~B6ur$1suSpDb#3HoNHX==j6 zMV+D+Zhp@S%g?o9N!Jd)jJQdFPh3!hGuT(FmW7VIrIHeW3C5!U;KHo|2rv!~Hi%&Z z0Dw;l10cgF4s1x}0{^9j1Lng2iwCg(0g9_j%FDy3x|y?ug}uu=2iLF6+ioyd)7Ba~ zt~yGJ0%i_Su!*^YsRh^r>iEY5AmkwcW1$wVCLj-}oxO{IhcMM&2mu)XN6bbA`U~P} zD@>)MqzaOBaJB&Pg4x0BR3c~~5JQA75AAjGcg@^TjBH6qAlNKyNwm%v+4lq00zkS0@h5kqdRINQM>~y89p|JA6Vu*0_ z3H=5CUyA<({4YbD{}^)e{6CierTPCYHC-&6B^{u!h^`|4Y0N)i|6BQwp%B}j#Q&=h ze^>c0DXh#QXhLlNZkY($j|gKr005I+UP@fU1MWBz@dueSRzOkVJIZ%X=!V~yQBP)6 zqrSjNIAVZ%8I^$um@B4%1h(TFC-%L|%j;>dNAyvP`_0zw^C{WB;>F7G@y~^$qq!6B zHXKAJM>IY}IvcdB>|(3a5ALvw7$6uW6FU>A4Cf@irnrXZh}H;lB>w~JK@8*yRPSV5 z3+nWQo$*xBJYqWM|8S1tYeIh^rT?Z3h)X<z`7~I-^YtyoCzuS59aO7%Ll<6EL^!sX(6=U;T z$5WDl+q|^j?RvPtW2%v#?oN*XQ}ZY)eWq&oTT7W1pQ{DiZ-Zy+-P!k@i`b2ueX$=Vl?9bN zlm+%bTTjB&8Ry-r{?Aae1^?&Y7W;*%DS`0FpB&||dCo^(uMU(HWiPnaT%Rnz{k80F zln$+*-#B0`Y8jH1C3Ol>!79WC-=5%cqw0}#JQX4 zLierx-lm~`(Z-Cz|FP=&d0N}3POotBoUpsRVa4W(jNMr5V(Wtn9b5ZtzOUTZ?If1k zF^RzhO3CJ>20gf$zERQVB{vde3LnS(jL(%TKe$FSmwa!QL${e6KfE&Zpq#g>8L^AA z%5;(u5WP6Gh}uo|tpQZBygV%ESIS#^`Ir1#2^G9KWz7er zgUQ;4^M&_0zQ1%iN4O_xD15Kf?0;JZfi(0yx09i9(p_?_*;|Va9T~rArV&Yt_zPhn9m%Y zA*i@pg{g)~uxTJ{UZ~>e|NB~7*QTU!qSY?QZ%UEC!j$o(DW#`c(&sb| zE0aJ(f&^Gg)m&>Vq9NYelMDBH_D$OpA~$npn0FV$Y{zX5tL+3i^5~0lOMVZ>)!&gw z20p4Q>*^@f)t2LmbZ~l*Wkskgd2GgpUT5G7o%i5|RsUMBEh;|iOOz!~Z+EC2m$7cn zlA;!QV=J>q4|sg&BXJ0sy^@a!APmM*8c1f|9&#}kIQb0N)=5zpNM^C zKAvOU9-;|djY(=j>!!78=+OX_SfkdvS?repdFj17U|?yF5}X#Xqy>rn@M@?(h%QE(0#!TEC8gL z-^M|TrC8yIUwUrY(g@}1i769-ed)y?Zg)M!#3J1^b9FexX;*meGs6u(grk-bk6jQV z2iC878@`{`Y_bOgHd=n!4}E3$?h@2EKO{@kW~ndDcC+lBGZM?I3-6=3Q%X`@95qgo z^OpLaAY#&NEaawURHUWi74fr2H*4JC95d3kt$LI(l}v!F-ZS9(*J5)HrgIV*L7T4=@Sgs zx=(1C^?rt138?f_4O2Gi-Bd!jx%4o&<_Bj=|En3q6X_SNW+_(d%kHbm@R&klapinp zk%DXkXY7y~nKK;Po5o(!bs!CzH}8L`u~Ap#2;B}0PQmC*;}5n+cvp5@zgU3{Q6l1o zA_moKP+Ab+ysxadcqd8pMMRH;i}#&|qB}kn=gpD}$@2S}KpRUD@Y|KdZ}#AtdUF3q zCsZ>G*PqR{I$E8xM*h&zTZPa_*oqf&(o!Oh4(G3S!xXvAO*0=tgbRm@f8+Cr!KLlF^&+r7<)y z8GIvf$fU-6J#zK)mLx9TL0Blhprbj`r5hBi4W7U|NfDL0<{$6%{O-0V?SA+#g$&YV zu#8ZD?^9*9=g9g5^!*;%{hk51L<)+-#Bz@^18N)j)-?f~NP3iJbgi=Zm^JCRe)5@p z%ITLa!{2;!%+^?MTVAIX^}LhepeHa4|7Z4XBY!Hy7sz}U8{KT3fOYvL!@fE;2%!!3 zjz7xBNFwjEMbJkWl*nEk-RKYK>3{VD7!!>2$+n_tf+|fgUR*sS6G1Wdi&Qb97}xhP zU5v1qsB@s-Bh88Ui$YCfmoa~8u?GYwku4=l4S-rUPO)xYO_t0;i%{z=c`oX;p@beD z0yO34J3laoQzA3q9Js-;B=Q5k?Ca6aVE6D2Vl+Jp?~odMk0an-`u1zI`KeE6BWkKI z5bIWRc1ombjd6qeAQZr^WeWh4!|93-=>g7UlXEr19eeS$(-?W}=Ge^yxS0Z}LnOGw z$29XtIEPuRHH7Tp!=jhbXt;OIBCx4Vxm)gs^0!gRupC;Bc`3#403!h@;<%QFSO~+- zB6)@$?axmSIQgrT-^Ovj&njYt{4#|SHAL#FbS4k*b!Jw+yePxq#mivK=6a7+dcKe9 zDSp^{f-TN(oUEx;W%bzGhrr&j7%CJ^Zy%fyonhZ>J(3ADKtZT>A`-oXt+q=W7W4&J z8bi6VWiPNk>QLxVF9pTGkq6{#kbKm!B(_S}FUk>-VdXI>1qE2^VpUWk(FLPaStI4m zeTD-jf;3*NSzPK2lzlcZjihDSAe*I)-JzEt6@!mTiP?mIXH^SSRCxhHCnc(i48jM( z@AcAhW!=C&y;z#l3vcIQ0hgS-93<=YdSLzrRDMey%iAT*-(?W3$87?6_k+KWjiY@5Ba6K!8 z8~0egio9PNTo0$P$9A>HDfPEevraB0P@5jf+}lxzpz8OO3Th&U_|is5hc?v@T4W{2 zig+IEF0^V$l2nk>PXGAeyi7Ql7fx<7Ym@7wOsz)I%5{PRE-1=%(m=6hp#^K@vdnnZK@d}_wzwPZW}3t>EkilGJu zf@hN=4@c^$IjL$rvYA3-A}*W1O7&WJkua!sdCZE?Ghg&NZbZ@(=aiU6)+i`Z_d?*~ zbf>N$a}30)3OWOvVs%Mm7#0tvEGXF57Pvf{Xhg1y(1sCw1Qvk|^fj=5HUP!fS%tjs zQ8Yl0%gri>f1gpNE3xd;xSRe^CN_cY+TKTuM0bsFkV&_gm7|84<<~{Q!yX6nAwXY` z&J|F7czOF=O%=&&!lb|7MhU+jxnq)EqR>XQ6tp+BB^yg@@us=h9|4H|`Blh)>fF-1 zM{AIO)jRFq7uTP?Yt2IA3VuDX+5AZvsbdLF{&?Kr6=`0yh(v5zlF0@#ZiV7dq>Nr&Ga7Bm(pk^3EOohG0`HsV>X?bi}JqDd#$%;9NsibRN z{nCk23EC47=lc1b-(UMCcc)cAW+t>j@Ya3B(`vmpg|H*adJi{FxJjxf(HiBKWxv8z zRy5CANC5=sroS9!h%lMURU}2pP<)Qx9UIS8bF8&3e3q!^?k3Q)j9NkSRSYZ0&oft| z8`!DuzC-MbZ<3FVfR#fLj+G7;kU5M*B>v_;-gJw%s=XKK=hduq;^WBFUEc2)TwSd4 zlob(+jlM*s&x`%Mab@)MqOkZld&nU*p3flvr9^EhyBcaxDL5#8m~qS+ZOUl&@G7F! zzbHUG*A=#PWXRfD$y3kug6$Di+j!2g`4J&S0q8*!@+V{hh^4ZyZQ%4w>|JHlRv*e Date: Mon, 26 Dec 2022 09:05:58 +0000 Subject: [PATCH 19/30] vzorec --- .../2019/michal_stromko/vp2023/img/vzorec.png | Bin 0 -> 7259 bytes 1 file changed, 0 insertions(+), 0 deletions(-) create mode 100644 pages/students/2019/michal_stromko/vp2023/img/vzorec.png diff --git a/pages/students/2019/michal_stromko/vp2023/img/vzorec.png b/pages/students/2019/michal_stromko/vp2023/img/vzorec.png new file mode 100644 index 0000000000000000000000000000000000000000..26026392aeb3141e01c21646cec50d3f4049d8c7 GIT binary patch literal 7259 zcmb_=Wmp_rv+giBgx~~ca37rDu7d|BxCR+KxVu||1&0tMKybI<5`w$CI|L1!$=>^u zd(Yp~&$GI!tKO>Ws#>eNS4XNU%VMArqX7T_40$=JHvj+}5XQ5kAi>V}QLYjI09t{y zq@=36q$Ehy*}>A<&H@0Ci%d>I)==Na33&FNBw@wc4_QIjM@Yc&+G~r1$N@ueBtR&0 z$-Vgc=uA|(6~%aJj;sM?h*ieo2zZrj129oEB1!QnFubzmwDsm^hBw`1R@3FE=w;5s z?h61O=UWEFPz!(@u6d+HtNy;)IEU+!iv!)T;Orpo-OXzNDy3+*O3_`x85=8X%?#@;k=Y?XtF))-ephi#ThuR?gfW zw~ou%E=ff z011)@w$RN8>G>Lwt1C<-tU&Gywp@g%KwfqLom?nyCtM={a}6FSP8fkS3_zv{K8N@Bp3Y2Xrex! zPSYyxGLadA!`Rq9Ix}t42ICtOlFITq`y(tjV0bs;qm%y3d| zu+d4vl0_3GQ&g$a`vT`;l9KQe?UL>b9Zz4+6rXCJ#7Cz)4`8Yl#GxU9k`Qr_$Q)o7nt9FYL51*z6W2UAD9tqV9;Z<_km-hiP`qhT(F-gU?GlzaO*RXf(C*-Z?*daOP zIx&pUeb=B`S?O%jfjS>zodkVj#rY1xbD(9+|pNt<>2Z8_GYQKNc^Cn;!ATFj3LNP}?dEtZenc^e%l`T6jA48+i zt!ISiKxx7+Rhzwwv4T8`F8%KMP+_#!D6hgBq~&CLWTs?%VqD`{;z%R(@ahB(v}&EX zMVtANUg2V^<8xK@m<^uLc2~_*Ay)Y+T&M1^v{fm3>K;^I4i~1@q~=6*_el4V#b%fy zS2NG!o|oN5-8#jQSYhtc&W5%`3--Be;a|$&km5$+%HWdWy3@tc^3x~Nv~9GU58pZ@ zwSB;(@mEAuEK$D8CQe^S2vdnx5M)lk{ftua`D@YcXLt12P{gjl7Y{MZM4MDbYMOK( zo49NE708LA1bUD*D0+hDmFKtTbF`$&_>!qJs0a23c!riU1(SBu-OXveXss+3nMO1Z zwJ~627imP&!|nJ2E&sLfSl4~nIx}5HU!kJw?;SiJwt;c_TE^aPPEr&u-)7SJc#5-ezhG)lT|bZG!JBx(rU;*;aiEdP=uC$v4Q)vjg9BOzgA?csHD8 zF)1(|vbwW66swlc>7P4MxEqc7rT)G~o_dK#c6-6~y!(LM_L5iYKr@B3i+o7r>d~=h z{TFo%b)DvrrnIKfSHx*}9!ef<8>p>qd@1>|7V>Q5VP9M?`JupxUu)CK=O<(M^1M9+ zK1z}Ejnqb?d*%CVJHcK)O@F-`*IuH7^e&lVjs~Yz#uDpX{^q8KveEf^g76fsj!#c| zzRH*Scb=h_i(o9aEu&jMj?)dPua(!+g*^(A(BVaLgScj&Q^;BJ&#&#;-;6F>-I}uI z{mz>=uU%drIb^mCHqN^a?`WBYzwb|9oM{+!U2x@HscM^CvY4HoXls0sh<6z+Y&miN zwrsZCGEFkJxcq9xy+gF#e@*1(X)kyR*@4_rG}EW{gk#5P9XFkxRz)*M>&f!=ZFj&( z=biY?_c*J(QF08YFvF+pyN4;qCzqkiB<$G41-0mL7qe_L1Gbb_LO(_y{=3pO%z05J zLy}gJ-$lbYWSeT6-40R??H$V(%KHY_-d}H^xZ=1fqMv=!9(8Wz_ti(N`gVV@B^t@l zX)CUOfpif2LGN}Rj?ZsuPgg_ju)Qtu#3<3|X#i*S!~h64Uj4F~|b3;-xLh{mG%UJ*ke0pXXSO@O(HH~B6ur$1suSpDb#3HoNHX==j6 zMV+D+Zhp@S%g?o9N!Jd)jJQdFPh3!hGuT(FmW7VIrIHeW3C5!U;KHo|2rv!~Hi%&Z z0Dw;l10cgF4s1x}0{^9j1Lng2iwCg(0g9_j%FDy3x|y?ug}uu=2iLF6+ioyd)7Ba~ zt~yGJ0%i_Su!*^YsRh^r>iEY5AmkwcW1$wVCLj-}oxO{IhcMM&2mu)XN6bbA`U~P} zD@>)MqzaOBaJB&Pg4x0BR3c~~5JQA75AAjGcg@^TjBH6qAlNKyNwm%v+4lq00zkS0@h5kqdRINQM>~y89p|JA6Vu*0_ z3H=5CUyA<({4YbD{}^)e{6CierTPCYHC-&6B^{u!h^`|4Y0N)i|6BQwp%B}j#Q&=h ze^>c0DXh#QXhLlNZkY($j|gKr005I+UP@fU1MWBz@dueSRzOkVJIZ%X=!V~yQBP)6 zqrSjNIAVZ%8I^$um@B4%1h(TFC-%L|%j;>dNAyvP`_0zw^C{WB;>F7G@y~^$qq!6B zHXKAJM>IY}IvcdB>|(3a5ALvw7$6uW6FU>A4Cf@irnrXZh}H;lB>w~JK@8*yRPSV5 z3+nWQo$*xBJYqWM|8S1tYeIh^rT?Z3h)X<z`7~I-^YtyoCzuS59aO7%Ll<6EL^!sX(6=U;T z$5WDl+q|^j?RvPtW2%v#?oN*XQ}ZY)eWq&oTT7W1pQ{DiZ-Zy+-P!k@i`b2ueX$=Vl?9bN zlm+%bTTjB&8Ry-r{?Aae1^?&Y7W;*%DS`0FpB&||dCo^(uMU(HWiPnaT%Rnz{k80F zln$+*-#B0`Y8jH1C3Ol>!79WC-=5%cqw0}#JQX4 zLierx-lm~`(Z-Cz|FP=&d0N}3POotBoUpsRVa4W(jNMr5V(Wtn9b5ZtzOUTZ?If1k zF^RzhO3CJ>20gf$zERQVB{vde3LnS(jL(%TKe$FSmwa!QL${e6KfE&Zpq#g>8L^AA z%5;(u5WP6Gh}uo|tpQZBygV%ESIS#^`Ir1#2^G9KWz7er zgUQ;4^M&_0zQ1%iN4O_xD15Kf?0;JZfi(0yx09i9(p_?_*;|Va9T~rArV&Yt_zPhn9m%Y zA*i@pg{g)~uxTJ{UZ~>e|NB~7*QTU!qSY?QZ%UEC!j$o(DW#`c(&sb| zE0aJ(f&^Gg)m&>Vq9NYelMDBH_D$OpA~$npn0FV$Y{zX5tL+3i^5~0lOMVZ>)!&gw z20p4Q>*^@f)t2LmbZ~l*Wkskgd2GgpUT5G7o%i5|RsUMBEh;|iOOz!~Z+EC2m$7cn zlA;!QV=J>q4|sg&BXJ0sy^@a!APmM*8c1f|9&#}kIQb0N)=5zpNM^C zKAvOU9-;|djY(=j>!!78=+OX_SfkdvS?repdFj17U|?yF5}X#Xqy>rn@M@?(h%QE(0#!TEC8gL z-^M|TrC8yIUwUrY(g@}1i769-ed)y?Zg)M!#3J1^b9FexX;*meGs6u(grk-bk6jQV z2iC878@`{`Y_bOgHd=n!4}E3$?h@2EKO{@kW~ndDcC+lBGZM?I3-6=3Q%X`@95qgo z^OpLaAY#&NEaawURHUWi74fr2H*4JC95d3kt$LI(l}v!F-ZS9(*J5)HrgIV*L7T4=@Sgs zx=(1C^?rt138?f_4O2Gi-Bd!jx%4o&<_Bj=|En3q6X_SNW+_(d%kHbm@R&klapinp zk%DXkXY7y~nKK;Po5o(!bs!CzH}8L`u~Ap#2;B}0PQmC*;}5n+cvp5@zgU3{Q6l1o zA_moKP+Ab+ysxadcqd8pMMRH;i}#&|qB}kn=gpD}$@2S}KpRUD@Y|KdZ}#AtdUF3q zCsZ>G*PqR{I$E8xM*h&zTZPa_*oqf&(o!Oh4(G3S!xXvAO*0=tgbRm@f8+Cr!KLlF^&+r7<)y z8GIvf$fU-6J#zK)mLx9TL0Blhprbj`r5hBi4W7U|NfDL0<{$6%{O-0V?SA+#g$&YV zu#8ZD?^9*9=g9g5^!*;%{hk51L<)+-#Bz@^18N)j)-?f~NP3iJbgi=Zm^JCRe)5@p z%ITLa!{2;!%+^?MTVAIX^}LhepeHa4|7Z4XBY!Hy7sz}U8{KT3fOYvL!@fE;2%!!3 zjz7xBNFwjEMbJkWl*nEk-RKYK>3{VD7!!>2$+n_tf+|fgUR*sS6G1Wdi&Qb97}xhP zU5v1qsB@s-Bh88Ui$YCfmoa~8u?GYwku4=l4S-rUPO)xYO_t0;i%{z=c`oX;p@beD z0yO34J3laoQzA3q9Js-;B=Q5k?Ca6aVE6D2Vl+Jp?~odMk0an-`u1zI`KeE6BWkKI z5bIWRc1ombjd6qeAQZr^WeWh4!|93-=>g7UlXEr19eeS$(-?W}=Ge^yxS0Z}LnOGw z$29XtIEPuRHH7Tp!=jhbXt;OIBCx4Vxm)gs^0!gRupC;Bc`3#403!h@;<%QFSO~+- zB6)@$?axmSIQgrT-^Ovj&njYt{4#|SHAL#FbS4k*b!Jw+yePxq#mivK=6a7+dcKe9 zDSp^{f-TN(oUEx;W%bzGhrr&j7%CJ^Zy%fyonhZ>J(3ADKtZT>A`-oXt+q=W7W4&J z8bi6VWiPNk>QLxVF9pTGkq6{#kbKm!B(_S}FUk>-VdXI>1qE2^VpUWk(FLPaStI4m zeTD-jf;3*NSzPK2lzlcZjihDSAe*I)-JzEt6@!mTiP?mIXH^SSRCxhHCnc(i48jM( z@AcAhW!=C&y;z#l3vcIQ0hgS-93<=YdSLzrRDMey%iAT*-(?W3$87?6_k+KWjiY@5Ba6K!8 z8~0egio9PNTo0$P$9A>HDfPEevraB0P@5jf+}lxzpz8OO3Th&U_|is5hc?v@T4W{2 zig+IEF0^V$l2nk>PXGAeyi7Ql7fx<7Ym@7wOsz)I%5{PRE-1=%(m=6hp#^K@vdnnZK@d}_wzwPZW}3t>EkilGJu zf@hN=4@c^$IjL$rvYA3-A}*W1O7&WJkua!sdCZE?Ghg&NZbZ@(=aiU6)+i`Z_d?*~ zbf>N$a}30)3OWOvVs%Mm7#0tvEGXF57Pvf{Xhg1y(1sCw1Qvk|^fj=5HUP!fS%tjs zQ8Yl0%gri>f1gpNE3xd;xSRe^CN_cY+TKTuM0bsFkV&_gm7|84<<~{Q!yX6nAwXY` z&J|F7czOF=O%=&&!lb|7MhU+jxnq)EqR>XQ6tp+BB^yg@@us=h9|4H|`Blh)>fF-1 zM{AIO)jRFq7uTP?Yt2IA3VuDX+5AZvsbdLF{&?Kr6=`0yh(v5zlF0@#ZiV7dq>Nr&Ga7Bm(pk^3EOohG0`HsV>X?bi}JqDd#$%;9NsibRN z{nCk23EC47=lc1b-(UMCcc)cAW+t>j@Ya3B(`vmpg|H*adJi{FxJjxf(HiBKWxv8z zRy5CANC5=sroS9!h%lMURU}2pP<)Qx9UIS8bF8&3e3q!^?k3Q)j9NkSRSYZ0&oft| z8`!DuzC-MbZ<3FVfR#fLj+G7;kU5M*B>v_;-gJw%s=XKK=hduq;^WBFUEc2)TwSd4 zlob(+jlM*s&x`%Mab@)MqOkZld&nU*p3flvr9^EhyBcaxDL5#8m~qS+ZOUl&@G7F! zzbHUG*A=#PWXRfD$y3kug6$Di+j!2g`4J&S0q8*!@+V{hh^4ZyZQ%4w>|JHlRv*e Date: Mon, 26 Dec 2022 09:07:00 +0000 Subject: [PATCH 20/30] Update 'pages/students/2019/michal_stromko/vp2023/Dokumentacia.md' --- pages/students/2019/michal_stromko/vp2023/Dokumentacia.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md index 7947e0346e..57b021a608 100644 --- a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md +++ b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md @@ -33,4 +33,4 @@ Pre uľahčenie pochopenia tejto problematiky, postupne vysvetlím vypočítanie DPR nazývame ako typ systému, spracovania prirodzeného jazyka (NLP). Tento systém získava relevantné časti, inak povedané pasáže z veľkého korpusu textu. V kombinácii s sémantickou analýzou a algoritmom strojového učenia, ktorý idenetifikuje najrelevantnejšie pasáže pre daný dopyt. DPR je založený na používaní správneho enkódera, ktorý mapuje text na dimenzionálne vektory skutočnej hodnoty a vytvára index M, ktorý sa používa pre vyhľadávanie. Treba však povedať, že počas behu DPR sa aplikuje aj iný enkóder **EQ**, ktorý mapuje vstupnú otázku na d-rozmerný vektor a následne hľadá tie vektory, ktoré sú najbližšie k vektoru otázky. Podobnosť medzi otázkou a časťou odpovede definujeme pomocou **Bodového súčinu ich vektorov**. - +![vzorec podobnosti](img/vzorec.png) From 8f34de0f5e87110ebc26cccb7d69d86d0db0b538 Mon Sep 17 00:00:00 2001 From: Michal Stromko Date: Mon, 26 Dec 2022 09:22:39 +0000 Subject: [PATCH 21/30] Update 'pages/students/2019/michal_stromko/vp2023/Dokumentacia.md' --- pages/students/2019/michal_stromko/vp2023/Dokumentacia.md | 5 +++++ 1 file changed, 5 insertions(+) diff --git a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md index 57b021a608..f3b11adbd7 100644 --- a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md +++ b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md @@ -34,3 +34,8 @@ Pre uľahčenie pochopenia tejto problematiky, postupne vysvetlím vypočítanie DPR nazývame ako typ systému, spracovania prirodzeného jazyka (NLP). Tento systém získava relevantné časti, inak povedané pasáže z veľkého korpusu textu. V kombinácii s sémantickou analýzou a algoritmom strojového učenia, ktorý idenetifikuje najrelevantnejšie pasáže pre daný dopyt. DPR je založený na používaní správneho enkódera, ktorý mapuje text na dimenzionálne vektory skutočnej hodnoty a vytvára index M, ktorý sa používa pre vyhľadávanie. Treba však povedať, že počas behu DPR sa aplikuje aj iný enkóder **EQ**, ktorý mapuje vstupnú otázku na d-rozmerný vektor a následne hľadá tie vektory, ktoré sú najbližšie k vektoru otázky. Podobnosť medzi otázkou a časťou odpovede definujeme pomocou **Bodového súčinu ich vektorov**. ![vzorec podobnosti](img/vzorec.png) + +Aj keď existujú silnejšie modelové formy na meranie podobnosti medzi otázkou a pasážou, ako sú siete pozostávajúce z viacerých vrstiev krížovej pozornosti, ktorá musí byť rozložiteľná, aby sme mohli vopred vypočítať kolekcie pasáží. Väčšina rozložiteľných funkcii podobnosti používa transformácie euklidovskej vzdialenosti. + +**Cross Attentions** (krížová pozornosť) +Cross Attentions v DPR je technika, ktorá sa používa na zlepšenie presnosti procesu vyhľadávania. Funguje tak, že umožňuje modelu pracovať s viacerými pasížami naraz, čo umožňuje identifikovanie najrelevantnejších pasáží. \ No newline at end of file From 025a444027ca9ef5530e136ea299ba8428c6fd4c Mon Sep 17 00:00:00 2001 From: Michal Stromko Date: Mon, 26 Dec 2022 11:57:32 +0000 Subject: [PATCH 22/30] Update 'pages/students/2019/michal_stromko/vp2023/Dokumentacia.md' --- .../2019/michal_stromko/vp2023/Dokumentacia.md | 14 +++++++++++++- 1 file changed, 13 insertions(+), 1 deletion(-) diff --git a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md index f3b11adbd7..94af13defa 100644 --- a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md +++ b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md @@ -38,4 +38,16 @@ DPR nazývame ako typ systému, spracovania prirodzeného jazyka (NLP). Tento sy Aj keď existujú silnejšie modelové formy na meranie podobnosti medzi otázkou a pasážou, ako sú siete pozostávajúce z viacerých vrstiev krížovej pozornosti, ktorá musí byť rozložiteľná, aby sme mohli vopred vypočítať kolekcie pasáží. Väčšina rozložiteľných funkcii podobnosti používa transformácie euklidovskej vzdialenosti. **Cross Attentions** (krížová pozornosť) -Cross Attentions v DPR je technika, ktorá sa používa na zlepšenie presnosti procesu vyhľadávania. Funguje tak, že umožňuje modelu pracovať s viacerými pasížami naraz, čo umožňuje identifikovanie najrelevantnejších pasáží. \ No newline at end of file +Cross Attentions v DPR je technika, ktorá sa používa na zlepšenie presnosti procesu vyhľadávania. Funguje tak, že umožňuje modelu pracovať s viacerými pasížami naraz, čo umožňuje identifikovanie najrelevantnejších pasáží. Pre pre správne identifikovanie DPR berie do úvahy kontext každej pasáže. V prvom kroku najskôr model identifikuje kľúčové výrazy v dotaze a následne použije sémantickú analýzu na identifikáciu súvisiacich výrazov. Mechanizmus pozornisti umožňuje modelu zamerať sa na najdôležitejšie slová v každej pasáži, zatiaľ čo algoritmu strojového učenia pomáha modelu s identifikáciou. + +V ďalšom kroku _Cross Attentions_ používa systém bodovania na hodnotenie získaných pasáží. Bodovací systém berie do úvahy relevantnosť pasáží k dopytu, dĺžku pasáží a počet výskytov dopytovacích výrazov v pasážach. Posledným dôležitým atribútom, ktorý sa zisťuje je miera súvislosti nájdeného výrazu k výrazu dopytu. + +**Pozitívne a negatívne pasáže** (Positive and Negative passages) +Časté problémy, ktoré vznikajú pri vyhľadávaní sú spojené s opakujúcimi sa pozitívnymi výsledkami, zatiaľ čo negatívne výsledky sa vyberajú z veľkej množiny. Ako príklad si môžeme uviesť pasáž, ktorá súvisí s otázkou a nachádza sa v súbore QA a dá sa nájsť pomocou odpovede. Všetky ostatné pasáže aj keď nie sú explicitne špecifikované, môžu byť predvolene považované za irelevantné. +Poznáme tri typy negatívnych odpovedí: +- **Náhodný (Random)** + - Je to akákoľvek náhodná pasáž z korpusu +- **BM25** + - Top pasáže vracajúce BM25, ktoré neobsahujú odpoveď, ale zodpovedajú väčšine otázkou +- **Zlato (Gold)** + - Pozitívne pasáže párované s ostatnými otázkami, ktoré sa objavili v trénovacom súbore \ No newline at end of file From fdbb633b7c0999eb64c444b0c13769c7982daf0f Mon Sep 17 00:00:00 2001 From: Michal Stromko Date: Mon, 26 Dec 2022 13:59:40 +0000 Subject: [PATCH 23/30] Update 'pages/students/2019/michal_stromko/vp2023/Dokumentacia.md' --- .../students/2019/michal_stromko/vp2023/Dokumentacia.md | 9 ++++++++- 1 file changed, 8 insertions(+), 1 deletion(-) diff --git a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md index 94af13defa..79657e94c3 100644 --- a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md +++ b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md @@ -50,4 +50,11 @@ Poznáme tri typy negatívnych odpovedí: - **BM25** - Top pasáže vracajúce BM25, ktoré neobsahujú odpoveď, ale zodpovedajú väčšine otázkou - **Zlato (Gold)** - - Pozitívne pasáže párované s ostatnými otázkami, ktoré sa objavili v trénovacom súbore \ No newline at end of file + - Pozitívne pasáže párované s ostatnými otázkami, ktoré sa objavili v trénovacom súbore + +### Sentence Transformers + +- je Python framework + + +### Semantic Search \ No newline at end of file From 7bc2147c32a6ab67c71a67001e1d3c1cc6e0abe2 Mon Sep 17 00:00:00 2001 From: Michal Stromko Date: Wed, 28 Dec 2022 18:35:35 +0000 Subject: [PATCH 24/30] Update 'pages/students/2019/michal_stromko/vp2023/Dokumentacia.md' --- .../2019/michal_stromko/vp2023/Dokumentacia.md | 17 ++++++++++++++++- 1 file changed, 16 insertions(+), 1 deletion(-) diff --git a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md index 79657e94c3..2d7be3ee26 100644 --- a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md +++ b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md @@ -57,4 +57,19 @@ Poznáme tri typy negatívnych odpovedí: - je Python framework -### Semantic Search \ No newline at end of file +### Semantic Search + + +### Word Embedding + +### Semantic Search + +### BM25 + +### Faiss + + +### LABSE + + +### Slovak BERT \ No newline at end of file From 5df7c705f607a925e0053e19e4f59f9379a2427e Mon Sep 17 00:00:00 2001 From: Michal Stromko Date: Wed, 28 Dec 2022 19:06:19 +0000 Subject: [PATCH 25/30] Update 'pages/students/2019/michal_stromko/vp2023/Dokumentacia.md' --- pages/students/2019/michal_stromko/vp2023/Dokumentacia.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md index 2d7be3ee26..4a9b4676f4 100644 --- a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md +++ b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md @@ -54,7 +54,8 @@ Poznáme tri typy negatívnych odpovedí: ### Sentence Transformers -- je Python framework +- je Python framework +- dokázeme vypočítať Embeddingy vo vyše 100 jazykoch a dajú sa použíť ### Semantic Search From a9ed0f3a0445625a8298e8a7f35a8ff6ad60f97c Mon Sep 17 00:00:00 2001 From: Michal Stromko Date: Wed, 28 Dec 2022 20:56:31 +0000 Subject: [PATCH 26/30] Update 'pages/students/2019/michal_stromko/vp2023/Dokumentacia.md' --- .../michal_stromko/vp2023/Dokumentacia.md | 20 +++++++++++++++++-- 1 file changed, 18 insertions(+), 2 deletions(-) diff --git a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md index 4a9b4676f4..933c2e8227 100644 --- a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md +++ b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md @@ -55,7 +55,8 @@ Poznáme tri typy negatívnych odpovedí: ### Sentence Transformers - je Python framework -- dokázeme vypočítať Embeddingy vo vyše 100 jazykoch a dajú sa použíť +- dokázeme vypočítať Embeddingy vo vyše 100 jazykoch a dajú sa použíť na bežné úlohy ako napríklad semantic text similarity, sementic search, paraphrase mining +- framework je založený na PyTorch a Transformers a ponúka veľkú zbierku predtrénovyných modelov, ktoré sú vyladené pre rôzdne úlohy ### Semantic Search @@ -63,6 +64,19 @@ Poznáme tri typy negatívnych odpovedí: ### Word Embedding +Požívanie Word Embedings závisí od dobre vypočítaných Embedingov. Pokiaľ máme dobre vypočítané Embeddingy dokážeme veľmi jednoducho dostávať správne odpovede napríklad pri vyhľadávaní. Word Embedding môžeme poznať aj pod slovným spojením ako distribuovaná reprezentácia slov. Dokážeme pomocou neho zachytiť sémantické aj systaktické informácie o slovách z veľkého neoznačeného korpusu. + +Word Emedding používa tri kritické komponenty pri trénovaní a to model, korpus a trénovacie parametre. Aby sme mohli navrhnút efektívne word-embedding metódy je potrebné na začiatku objasniť konštrukciu modelu. Takmer všetky metódy trénovania word embeddings sú založené na rovnakej distribučnej hypotéze: **Slové, ktoré sa vyskytujú v podobných kontextoch, majú tendenciu mať podobné významy** + +Vzhľadom na vyšie napísanú hypotézu rôzne metódy modelujú vzťah medzi cieľovým slovom _w_ a jeho kontextom _c_ v korpuse s rôzymi spôsobmi, pričom _w_ a _c_ sú vložené do vektorov. Vo všeobecnosti môžeme povedať, že existujúce metódy sa líšia v dvoch hlavných aspektoch modelu konštrukcii a to **vzťah medzi cieľovým slovom a jeho kontextom a reprezentácia kontextu** + +Treba brať na vedomie, že trénovanie presných word embeddingov silne, inak povedané výrazne súvisí s tréningovým korpusom. Rôzne tréningové korpusy s rôznou veľkosťou a pochádzajúcej z rôzdnej oblasti môžu výrazne ovplyvniť konečné výsledky. + +Nakoniec presné trénovanie word embeddingov silne závisí od parametrov akými sú: +- počet iterácii +- dimenzionalita embeddingov + + ### Semantic Search ### BM25 @@ -73,4 +87,6 @@ Poznáme tri typy negatívnych odpovedí: ### LABSE -### Slovak BERT \ No newline at end of file +### Slovak BERT + +Bol uvedený pre širokú verejnosť v roku 2021 \ No newline at end of file From 8a1b7c01a5c5474c6928edb5eba69d747033f464 Mon Sep 17 00:00:00 2001 From: dano Date: Mon, 9 Jan 2023 12:24:27 +0000 Subject: [PATCH 27/30] Update 'pages/students/2019/michal_stromko/README.md' --- pages/students/2019/michal_stromko/README.md | 22 +++++++++++++++++++- 1 file changed, 21 insertions(+), 1 deletion(-) diff --git a/pages/students/2019/michal_stromko/README.md b/pages/students/2019/michal_stromko/README.md index 708ad7cf2d..c6d9cc59f8 100644 --- a/pages/students/2019/michal_stromko/README.md +++ b/pages/students/2019/michal_stromko/README.md @@ -34,6 +34,7 @@ Súvisiace práce: - Matej Kobyľan - Suchanič +- Kristián Sopkovič Ciele na semester: @@ -55,6 +56,25 @@ Klucove slova: - LABSE, LASER embedding model - multi language IR +Stretnutie 9.1.2023 + +Stav: + +- Vyrobená tabuľka s experimentami pre rôzne modely a rôzne veľkosti vrátenej množiny k +- Zatiaľ najlepší je model BM25 + +Úlohy: + +- Pripravte experiment v ktorom najprv vyhľadáte množinu k=(napr. 100, 200 alebo 50) prvkov pomocou bm25, výsledky zoradíte pomocou neurónovej siete a vyberiete m=(napr. 10,20,50) najlepších prvkov. Výsledky vyhodnotíte. +- Zoradenie pomocou NN vyzerá takto: zoberiete otázku a paragraf. Vypočítate skóre podobnosti. Prvý spôsob výpočtu je, že vložíte otázku aj paragraf naraz do NN. Výsledok je podobnosť. Druhý spôsob je: vypočítate významový vektor pre paragraf aj pre odsek. Výpočítate kosínusovú podobnosť jedného aj druhého. + +Zásobník úloh: + +- Vytvoriť vyhľadávanie v dvoch krokoch. Najprv "nahrubo", potom výsledky znova zoradiť. + + + + Stretnutie 19.12.2022 Stav: @@ -70,7 +90,7 @@ Stav: Zásobník úloh: -- Natrénujte model Kharpikun DPR, podľa Facebook skriptov alebo pomocou Nvidia Deep learning examples. +- Natrénujte model Kharpukin DPR, podľa Facebook skriptov alebo pomocou Nvidia Deep learning examples. - Vyhodnotte celý proces QA na vrátených výsledkoch. Stretnutie 10.11.2022 From 713ef1b3f3460315a8db4dca2b12f96b59ea8627 Mon Sep 17 00:00:00 2001 From: dano Date: Mon, 9 Jan 2023 12:28:33 +0000 Subject: [PATCH 28/30] Update 'pages/students/2019/michal_stromko/README.md' --- pages/students/2019/michal_stromko/README.md | 4 +++- 1 file changed, 3 insertions(+), 1 deletion(-) diff --git a/pages/students/2019/michal_stromko/README.md b/pages/students/2019/michal_stromko/README.md index c6d9cc59f8..ce4b8fc016 100644 --- a/pages/students/2019/michal_stromko/README.md +++ b/pages/students/2019/michal_stromko/README.md @@ -66,11 +66,13 @@ Stav: Úlohy: - Pripravte experiment v ktorom najprv vyhľadáte množinu k=(napr. 100, 200 alebo 50) prvkov pomocou bm25, výsledky zoradíte pomocou neurónovej siete a vyberiete m=(napr. 10,20,50) najlepších prvkov. Výsledky vyhodnotíte. -- Zoradenie pomocou NN vyzerá takto: zoberiete otázku a paragraf. Vypočítate skóre podobnosti. Prvý spôsob výpočtu je, že vložíte otázku aj paragraf naraz do NN. Výsledok je podobnosť. Druhý spôsob je: vypočítate významový vektor pre paragraf aj pre odsek. Výpočítate kosínusovú podobnosť jedného aj druhého. +- Zoradenie pomocou NN vyzerá takto: zoberiete otázku a paragraf. Vypočítate skóre podobnosti. Prvý spôsob výpočtu je, že vložíte otázku aj paragraf naraz do NN. Výsledok je podobnosť. Na výpočet podobnosti zatiaľ použite model slovakbert-stsb. Zásobník úloh: - Vytvoriť vyhľadávanie v dvoch krokoch. Najprv "nahrubo", potom výsledky znova zoradiť. +- Druhý spôsob vyhľadávania nahrubo je: vypočítate významový vektor pre paragraf aj pre odsek. Výpočítate kosínusovú podobnosť jedného aj druhého. + From 8b254bc6f17f9ac69cd658f893e45393160b96bc Mon Sep 17 00:00:00 2001 From: dano Date: Mon, 9 Jan 2023 12:31:07 +0000 Subject: [PATCH 29/30] Update 'pages/students/2019/michal_stromko/README.md' --- pages/students/2019/michal_stromko/README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/pages/students/2019/michal_stromko/README.md b/pages/students/2019/michal_stromko/README.md index ce4b8fc016..cb8369f890 100644 --- a/pages/students/2019/michal_stromko/README.md +++ b/pages/students/2019/michal_stromko/README.md @@ -72,6 +72,7 @@ Zásobník úloh: - Vytvoriť vyhľadávanie v dvoch krokoch. Najprv "nahrubo", potom výsledky znova zoradiť. - Druhý spôsob vyhľadávania nahrubo je: vypočítate významový vektor pre paragraf aj pre odsek. Výpočítate kosínusovú podobnosť jedného aj druhého. +- Vyhodnotiť modely v adresári crossencoder. From bcd2fe3b2490fb25bd9413dcaa48f04bc5025b96 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 13 Jan 2023 10:05:38 +0000 Subject: [PATCH 30/30] Update 'pages/students/2018/david_omasta/README.md' --- pages/students/2018/david_omasta/README.md | 11 +++++++---- 1 file changed, 7 insertions(+), 4 deletions(-) diff --git a/pages/students/2018/david_omasta/README.md b/pages/students/2018/david_omasta/README.md index b53e49497d..43ddee768e 100644 --- a/pages/students/2018/david_omasta/README.md +++ b/pages/students/2018/david_omasta/README.md @@ -22,13 +22,16 @@ Téma: Dotrénovanie slovenského generatívneho jazykového modelu. Vedúci: Ján Staš +Návrh na názov: + +Generatívne modely slovenského jazyka + Návrh na zadanie DP: - Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov. -- Napíšte v akých úlohách je možné uplatniť generatívne modely a uveďte odkazy na najnovšie články. -- Vyberte vhdonú úlohu a ku nej pripravte vhodnú dátovú množinu pre použitie s generatívnym jazykovým modelom. -- Pripravte experiment pri ktorej aplikujete jazykový model na zvolenú úlohu. -- Vyhodnotte experiment vohodnou metrikou a identifikujte možné zlepšenia. +- Vypracujte prehľad slovenských a multilinguálnych generatívnych jazykových modelov. +- Navrhnite experiment, pri ktorom bude model generovať odpovede na zadané otázky a kontext. +- Analyzujte výsledky experimentu vhodným spôsobom a identifikujte možné zlepšenia. Ciele na zimný semester: