Merge branch 'master' of git.kemt.fei.tuke.sk:KEMT/zpwiki

This commit is contained in:
Daniel Hládek 2025-02-13 12:38:35 +01:00
commit 77076f47b7
2 changed files with 41 additions and 1 deletions

View File

@ -29,6 +29,20 @@ Zadanie:
3. Navrhnite a vykonajte experimenty pre vyhodnotenie dotrénovaného modelu.
4. Vyhodnotťte experimenty a navrhnite zlepšenia.
Stretnutie 13.2.2025
Stav:
- Napísaná teória - neviem?
- Práca na trénovaní mbert pomocou MS MARCO na úlohe extraktívnej QA čo nesedí so zadaním.
- Fuzzy matching na vyhľadanie odpovede v datasete.
Úlohy:
- Pokračujte v otvorených úlohách týkajúcich sa SBERT, pracujte na texte DP.
- Pozrite si a vyskúšajte repozitár https://github.com/hladek/slovak-retrieval, skript train-bi-mnlr.py. Upravte skript pre trénovnaie na MS MARCO. Natrénujte a vyhodnotte viac modelov.
- Naštudujte si metódy vyodnotenia vektorových modelov (MTEB a beir). Vyskúšajte skripty pre vyhodnotenie v danom repozitári (MTEB a BEIR).
- Skripty dajte na KEMT GIT.
Stretnutie 29.10.2024
@ -41,7 +55,7 @@ Stav:
- Podrobne si naštudujte a vyskúšajte framework Sentence Transformers https://sbert.net/index.html. Využite Google Colab na príklady.
- Podrobne si naštudujte databázu MS MARCO. Zistite a vyskúšajte dotrénovanie anglického modelu typu BERT (bert, roberta, xlm, deberta ...) na databáze MS Marco.
- Píšte si poznámky o tom čo ste zistili o SBERT. Použite odkazy na vedecké články. Vedecké článk nájdete na Google Scholar.
- Píšte si poznámky o tom čo ste zistili o SBERT. Použite odkazy na vedecké články. Vedecké články nájdete na Google Scholar.
Zásobník úloh:

View File

@ -36,6 +36,32 @@ Vyhľadávanie právnych informácií pomocou neurónových sietí
RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation
13.2.2025
Stav:
- Funguje QA nad databázou liekov.
- Autentifikacia cez Google.
- História sa ukladá do Postgres DB na AWS.
- Používa sa Mistral Large. Slovenský Mistral nefunguje lebo ho treba dotrénovať.
- Vektorový model paraphrase-multilingual-MiniLM-L12-v2
- Projekt beží cez Docker, sú hotové aj Docker skripty.
- V texte je osnova a draft. Treba ešte pracovať hlavne na teoretickej časti - odbornej literatúre.
Úlohy:
- Pokračujte v práci na texte.
- Skúste vyhodnotiť navrhnutý systém. Pripravte dotazník. Osloviť kolegov aby to vyskúšali a slovne vyhodnotili systém.
- dajte nové kódy na git.
Zásobník úloh:
- Zlepšite logiku dialógu. Jazykový model by sa mal správať ak inteligentný agent - mal by mať definovaný cieľ konverzácie.
- Definujte ciele dialógu - čo by mal agent vedieť pre úspešnú odpoveď. Napr. Interakcie s liekmi. Sú lieky na predpis? Aké sú podrobnejšie symptómy choroby? Suchý kašeľ alebo vykašliavanie? Koľko rokov má pacient? Aká anamnéza je dôležitá.
- Preštudujte si metodiku REACT a Chain of Thought. https://arxiv.org/abs/2210.03629
8.11.2024
Stav: