forked from KEMT/zpwiki
		
	| .. | ||
| README.md | ||
| title | published | taxonomy | ||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| Dávid Kostilník | true | 
  | 
rok začiatku štúdia: 2020
Diplomová práca 2025
Téma:
Sémantické vyhľadávanie pomocou veľkých modelov
- Tvorba datasetu prekladom, využitie existujúcich datasetov
 - Dotrénovanie existujúceho modelu typu BERT pomocou preloženého MS MARCO.
 
Ciele:
- Zlepšiť RAG.
 
Zadanie:
- Vypracujte prehľad metód a modelov sémantického vyhľadávania pomocou neurónových sietí.
 - Vyberte vhodnú dátovú množinu a dotrénujte jazykový model pre úlohu sémantického vyhľadávania v slovenčine.
 - Navrhnite a vykonajte experimenty pre vyhodnotenie dotrénovaného modelu.
 - Vyhodnotťte experimenty a navrhnite zlepšenia.
 
Stretnutie 13.2.2025
Stav:
- Napísaná teória - neviem?
 - Práca na trénovaní mbert pomocou MS MARCO na úlohe extraktívnej QA čo nesedí so zadaním.
 - Fuzzy matching na vyhľadanie odpovede v datasete.
 
Úlohy:
- Pokračujte v otvorených úlohách týkajúcich sa SBERT, pracujte na texte DP.
 - Pozrite si a vyskúšajte repozitár https://github.com/hladek/slovak-retrieval, skript train-bi-mnlr.py. Upravte skript pre trénovnaie na MS MARCO. Natrénujte a vyhodnotte viac modelov.
 - Naštudujte si metódy vyodnotenia vektorových modelov (MTEB a beir). Vyskúšajte skripty pre vyhodnotenie v danom repozitári (MTEB a BEIR).
 - Skripty dajte na KEMT GIT.
 
Stretnutie 29.10.2024
Stav:
- Prečítané nejaké články. Inak nič.
 
Úlohy:
- Podrobne si naštudujte a vyskúšajte framework Sentence Transformers https://sbert.net/index.html. Využite Google Colab na príklady.
 - Podrobne si naštudujte databázu MS MARCO. Zistite a vyskúšajte dotrénovanie anglického modelu typu BERT (bert, roberta, xlm, deberta ...) na databáze MS Marco.
 - Píšte si poznámky o tom čo ste zistili o SBERT. Použite odkazy na vedecké články. Vedecké články nájdete na Google Scholar.
 
Zásobník úloh:
- pracujte na servri quadro a prostredí Anaconda.
 - Natrénujte slovenský BERT model na preloženej databáze MS MARCO (WIP K. Sopkovič).
 
Diplomový projekt 2024
Stretnutie 4.4. 2024
Úlohy:
- Oboznámte sa s tým, ako funguje neurónová sieť typu Transformer. Urobte si poznámky. Poznačete si zdroje, uprednostnite vedecké články.
 - Oboznámte sa ako funguje rekurentná neurónová sieť. Sústreďte sa na typ RWKV. Urobte si poznmámy.
 - Vyskúšajte si túto NN. Začnite tu https://wiki.rwkv.com/basic/play.html
 
Zásobník úloh:
- Oboznámte sa ako funguje NN Mamba.
 - Zostavte RAG systém s pomocou RWKV.
 - Oboznámte sa ako funguje Sentence Transformer.
 - Porovnajte embeddingy RWKV s inými metódami (Sentence Transformers)
 
Stretnutie 15.2.2024
Úlohy:
- Oboznámte sa s prácou K. Sopkovič a M. Stromko.