92 lines
		
	
	
		
			2.8 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			92 lines
		
	
	
		
			2.8 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
| ---
 | |
| title: Dávid Kostilník
 | |
| published: true
 | |
| taxonomy:
 | |
|     category: [dp2025]
 | |
|     tag: [ir]
 | |
|     author: Daniel Hladek
 | |
| ---
 | |
| 
 | |
| rok začiatku štúdia: 2020
 | |
| 
 | |
| # Diplomová práca 2025
 | |
| 
 | |
| Téma:
 | |
| 
 | |
| Sémantické vyhľadávanie pomocou veľkých modelov
 | |
| 
 | |
| - Tvorba datasetu prekladom, využitie existujúcich datasetov
 | |
| - Dotrénovanie existujúceho modelu typu BERT pomocou preloženého MS MARCO.
 | |
| 
 | |
| Ciele: 
 | |
| 
 | |
| - Zlepšiť RAG.
 | |
| 
 | |
| Zadanie:
 | |
| 
 | |
| 1. Vypracujte prehľad metód a modelov sémantického vyhľadávania pomocou neurónových sietí.
 | |
| 2. Vyberte vhodnú dátovú množinu a dotrénujte jazykový model pre úlohu sémantického vyhľadávania v slovenčine. 
 | |
| 3. Navrhnite a vykonajte experimenty pre vyhodnotenie dotrénovaného modelu.
 | |
| 4. Vyhodnotťte experimenty a navrhnite zlepšenia. 
 | |
| 
 | |
| Stretnutie 13.2.2025
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Napísaná teória - neviem?
 | |
| - Práca na trénovaní mbert pomocou MS MARCO na úlohe extraktívnej QA čo nesedí so zadaním.
 | |
| - Fuzzy matching na vyhľadanie odpovede v datasete.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Pokračujte v otvorených úlohách týkajúcich sa SBERT, pracujte na texte DP.
 | |
| - Pozrite si a vyskúšajte repozitár https://github.com/hladek/slovak-retrieval, skript train-bi-mnlr.py. Upravte skript pre trénovnaie na MS MARCO. Natrénujte a vyhodnotte viac modelov.
 | |
| - Naštudujte si metódy vyodnotenia vektorových modelov (MTEB a beir). Vyskúšajte skripty pre vyhodnotenie v danom repozitári (MTEB a BEIR).
 | |
| - Skripty dajte na KEMT GIT.
 | |
| 
 | |
| Stretnutie 29.10.2024
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Prečítané nejaké články. Inak nič.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| 
 | |
| - Podrobne si naštudujte a vyskúšajte framework Sentence Transformers https://sbert.net/index.html. Využite Google Colab na príklady.
 | |
| - Podrobne si naštudujte databázu MS MARCO. Zistite a vyskúšajte dotrénovanie anglického modelu typu BERT (bert, roberta, xlm, deberta ...) na databáze MS Marco.
 | |
| - Píšte si poznámky o tom čo ste zistili o SBERT. Použite odkazy na vedecké články. Vedecké články nájdete na Google Scholar.
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - pracujte na servri quadro a prostredí Anaconda.
 | |
| - Natrénujte slovenský BERT model na preloženej databáze MS MARCO (WIP K. Sopkovič).
 | |
| 
 | |
| 
 | |
| 
 | |
| ## Diplomový projekt 2024
 | |
| 
 | |
| Stretnutie 4.4. 2024
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Oboznámte sa s tým, ako funguje neurónová sieť typu Transformer. Urobte si poznámky. Poznačete si zdroje, uprednostnite vedecké články.
 | |
| - Oboznámte sa ako funguje rekurentná neurónová sieť. Sústreďte sa na typ RWKV. Urobte si poznmámy.
 | |
| - Vyskúšajte si túto NN. Začnite tu https://wiki.rwkv.com/basic/play.html
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Oboznámte sa ako funguje NN Mamba.
 | |
| - Zostavte RAG systém s pomocou RWKV.  
 | |
| - Oboznámte sa ako funguje Sentence Transformer.
 | |
| - Porovnajte embeddingy RWKV s inými metódami (Sentence Transformers)
 | |
| 
 | |
| 
 | |
| Stretnutie 15.2.2024
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Oboznámte sa s prácou [K. Sopkovič](/students/2019/kristian_sopkovic) a [M. Stromko](/students/2019/michal_stromko).
 | |
| 
 | |
| 
 |