From a1d179a6b58579e5e477f0f1d6c59b66f84d2cb5 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 13 Feb 2025 08:18:26 +0000 Subject: [PATCH 1/4] Update pages/students/2022/oleh_poiasnik/README.md --- pages/students/2022/oleh_poiasnik/README.md | 12 ++++++++++++ 1 file changed, 12 insertions(+) diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index 73c008ef..1e01f2a6 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -36,6 +36,18 @@ Vyhľadávanie právnych informácií pomocou neurónových sietí RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation +13.2.2025 + +Stav: + +- Funguje QA nad databázou liekov. +- Autentifikacia cez Google. +- História sa ukladá do Postgres DB na AWS. +- Používa sa Mistral Large. Slovenský Mistral nefunguje lebo ho treba dotrénovať. +- Vektorový model paraphrase-multilingual-MiniLM-L12-v2 +- Projekt beží cez Docker, sú hotové aj Docker skripty. + + 8.11.2024 Stav: From 2197c54133ac085b14eeb3d5a33a798bcac00284 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 13 Feb 2025 08:40:11 +0000 Subject: [PATCH 2/4] Update pages/students/2022/oleh_poiasnik/README.md --- pages/students/2022/oleh_poiasnik/README.md | 14 ++++++++++++++ 1 file changed, 14 insertions(+) diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index 1e01f2a6..c4c2ce82 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -46,6 +46,20 @@ Stav: - Používa sa Mistral Large. Slovenský Mistral nefunguje lebo ho treba dotrénovať. - Vektorový model paraphrase-multilingual-MiniLM-L12-v2 - Projekt beží cez Docker, sú hotové aj Docker skripty. +- V texte je osnova a draft. Treba ešte pracovať hlavne na teoretickej časti - odbornej literatúre. + +Úlohy: + +- Pokračujte v práci na texte. +- Skúste vyhodnotiť navrhnutý systém. Pripravte dotazník. Osloviť kolegov aby to vyskúšali a slovne vyhodnotili systém. +- dajte nové kódy na git. + +Zásobník úloh: + +- Zlepšite logiku dialógu. Jazykový model by sa mal správať ak inteligentný agent - mal by mať definovaný cieľ konverzácie. +- Definujte ciele dialógu - čo by mal agent vedieť pre úspešnú odpoveď. Napr. Interakcie s liekmi. Sú lieky na predpis? Aké sú podrobnejšie symptómy choroby? Suchý kašeľ alebo vykašliavanie? Koľko rokov má pacient? Aká anamnéza je dôležitá. +- Preštudujte si metodiku REACT a Chain of Thought. https://arxiv.org/abs/2210.03629 + 8.11.2024 From bb95440931067f8c372c8e9e7b8104efd428178f Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 13 Feb 2025 09:08:31 +0000 Subject: [PATCH 3/4] Update pages/students/2020/david_kostilnik/README.md --- pages/students/2020/david_kostilnik/README.md | 10 +++++++++- 1 file changed, 9 insertions(+), 1 deletion(-) diff --git a/pages/students/2020/david_kostilnik/README.md b/pages/students/2020/david_kostilnik/README.md index b0a03606..51b0e17e 100644 --- a/pages/students/2020/david_kostilnik/README.md +++ b/pages/students/2020/david_kostilnik/README.md @@ -29,6 +29,14 @@ Zadanie: 3. Navrhnite a vykonajte experimenty pre vyhodnotenie dotrénovaného modelu. 4. Vyhodnotťte experimenty a navrhnite zlepšenia. +Stretnutie 13.2.2025 + +Stav: + +- Napísaná teória? +- Práca na trénovaní mbert pomocou MS MARCO. +- Fuzzy matching na vyhľadanie odpovede v datasete. + Stretnutie 29.10.2024 @@ -41,7 +49,7 @@ Stav: - Podrobne si naštudujte a vyskúšajte framework Sentence Transformers https://sbert.net/index.html. Využite Google Colab na príklady. - Podrobne si naštudujte databázu MS MARCO. Zistite a vyskúšajte dotrénovanie anglického modelu typu BERT (bert, roberta, xlm, deberta ...) na databáze MS Marco. -- Píšte si poznámky o tom čo ste zistili o SBERT. Použite odkazy na vedecké články. Vedecké článkuý nájdete na Google Scholar. +- Píšte si poznámky o tom čo ste zistili o SBERT. Použite odkazy na vedecké články. Vedecké články nájdete na Google Scholar. Zásobník úloh: From 7686a445f2229a5c094677252ab33ae7c5853efc Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 13 Feb 2025 09:28:47 +0000 Subject: [PATCH 4/4] Update pages/students/2020/david_kostilnik/README.md --- pages/students/2020/david_kostilnik/README.md | 10 ++++++++-- 1 file changed, 8 insertions(+), 2 deletions(-) diff --git a/pages/students/2020/david_kostilnik/README.md b/pages/students/2020/david_kostilnik/README.md index 51b0e17e..5695596c 100644 --- a/pages/students/2020/david_kostilnik/README.md +++ b/pages/students/2020/david_kostilnik/README.md @@ -33,10 +33,16 @@ Stretnutie 13.2.2025 Stav: -- Napísaná teória? -- Práca na trénovaní mbert pomocou MS MARCO. +- Napísaná teória - neviem? +- Práca na trénovaní mbert pomocou MS MARCO na úlohe extraktívnej QA čo nesedí so zadaním. - Fuzzy matching na vyhľadanie odpovede v datasete. +Úlohy: + +- Pokračujte v otvorených úlohách týkajúcich sa SBERT, pracujte na texte DP. +- Pozrite si a vyskúšajte repozitár https://github.com/hladek/slovak-retrieval, skript train-bi-mnlr.py. Upravte skript pre trénovnaie na MS MARCO. Natrénujte a vyhodnotte viac modelov. +- Naštudujte si metódy vyodnotenia vektorových modelov (MTEB a beir). Vyskúšajte skripty pre vyhodnotenie v danom repozitári (MTEB a BEIR). +- Skripty dajte na KEMT GIT. Stretnutie 29.10.2024