diff --git a/pages/students/2020/david_kostilnik/README.md b/pages/students/2020/david_kostilnik/README.md index b0a03606a5..5695596c9a 100644 --- a/pages/students/2020/david_kostilnik/README.md +++ b/pages/students/2020/david_kostilnik/README.md @@ -29,6 +29,20 @@ Zadanie: 3. Navrhnite a vykonajte experimenty pre vyhodnotenie dotrénovaného modelu. 4. Vyhodnotťte experimenty a navrhnite zlepšenia. +Stretnutie 13.2.2025 + +Stav: + +- Napísaná teória - neviem? +- Práca na trénovaní mbert pomocou MS MARCO na úlohe extraktívnej QA čo nesedí so zadaním. +- Fuzzy matching na vyhľadanie odpovede v datasete. + +Úlohy: + +- Pokračujte v otvorených úlohách týkajúcich sa SBERT, pracujte na texte DP. +- Pozrite si a vyskúšajte repozitár https://github.com/hladek/slovak-retrieval, skript train-bi-mnlr.py. Upravte skript pre trénovnaie na MS MARCO. Natrénujte a vyhodnotte viac modelov. +- Naštudujte si metódy vyodnotenia vektorových modelov (MTEB a beir). Vyskúšajte skripty pre vyhodnotenie v danom repozitári (MTEB a BEIR). +- Skripty dajte na KEMT GIT. Stretnutie 29.10.2024 @@ -41,7 +55,7 @@ Stav: - Podrobne si naštudujte a vyskúšajte framework Sentence Transformers https://sbert.net/index.html. Využite Google Colab na príklady. - Podrobne si naštudujte databázu MS MARCO. Zistite a vyskúšajte dotrénovanie anglického modelu typu BERT (bert, roberta, xlm, deberta ...) na databáze MS Marco. -- Píšte si poznámky o tom čo ste zistili o SBERT. Použite odkazy na vedecké články. Vedecké článkuý nájdete na Google Scholar. +- Píšte si poznámky o tom čo ste zistili o SBERT. Použite odkazy na vedecké články. Vedecké články nájdete na Google Scholar. Zásobník úloh: diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index 73c008eff5..c4c2ce82ba 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -36,6 +36,32 @@ Vyhľadávanie právnych informácií pomocou neurónových sietí RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation +13.2.2025 + +Stav: + +- Funguje QA nad databázou liekov. +- Autentifikacia cez Google. +- História sa ukladá do Postgres DB na AWS. +- Používa sa Mistral Large. Slovenský Mistral nefunguje lebo ho treba dotrénovať. +- Vektorový model paraphrase-multilingual-MiniLM-L12-v2 +- Projekt beží cez Docker, sú hotové aj Docker skripty. +- V texte je osnova a draft. Treba ešte pracovať hlavne na teoretickej časti - odbornej literatúre. + +Úlohy: + +- Pokračujte v práci na texte. +- Skúste vyhodnotiť navrhnutý systém. Pripravte dotazník. Osloviť kolegov aby to vyskúšali a slovne vyhodnotili systém. +- dajte nové kódy na git. + +Zásobník úloh: + +- Zlepšite logiku dialógu. Jazykový model by sa mal správať ak inteligentný agent - mal by mať definovaný cieľ konverzácie. +- Definujte ciele dialógu - čo by mal agent vedieť pre úspešnú odpoveď. Napr. Interakcie s liekmi. Sú lieky na predpis? Aké sú podrobnejšie symptómy choroby? Suchý kašeľ alebo vykašliavanie? Koľko rokov má pacient? Aká anamnéza je dôležitá. +- Preštudujte si metodiku REACT a Chain of Thought. https://arxiv.org/abs/2210.03629 + + + 8.11.2024 Stav: