--- title: Dávid Kostilník published: true taxonomy: category: [dp2025] tag: [ir] author: Daniel Hladek --- rok začiatku štúdia: 2020 # Diplomová práca 2025 Ešte sa rozhodne. Téma: Sémantické vyhľadávanie pomocou veľkých modelov - Tvorba datasetu prekladom, využitie existujúcich datasetov - Dotrénovanie existujúceho modelu typu BERT pomocou preloženého MS MARCO. Ciele: - Zlepšiť RAG. Stretnutie 29.10.2024 Stav: - Prečítané nejaké články. Inak nič. Úlohy: - Podrobne si naštudujte a vyskúšajte framework Sentence Transformers https://sbert.net/index.html. Využite Google Colab na príklady. - Podrobne si naštudujte databázu MS MARCO. Zistite a vyskúšajte dotrénovanie anglického modelu typu BERT (bert, roberta, xlm, deberta ...) na databáze MS Marco. - Píšte si poznámky o tom čo ste zistili o SBERT. Použite odkazy na vedecké články. Vedecké článkuý nájdete na Google Scholar. Zásobník úloh: - pracujte na servri quadro a prostredí Anaconda. - Natrénujte slovenský BERT model na preloženej databáze MS MARCO (WIP K. Sopkovič). ## Diplomový projekt 2024 Stretnutie 4.4. 2024 Úlohy: - Oboznámte sa s tým, ako funguje neurónová sieť typu Transformer. Urobte si poznámky. Poznačete si zdroje, uprednostnite vedecké články. - Oboznámte sa ako funguje rekurentná neurónová sieť. Sústreďte sa na typ RWKV. Urobte si poznmámy. - Vyskúšajte si túto NN. Začnite tu https://wiki.rwkv.com/basic/play.html Zásobník úloh: - Oboznámte sa ako funguje NN Mamba. - Zostavte RAG systém s pomocou RWKV. - Oboznámte sa ako funguje Sentence Transformer. - Porovnajte embeddingy RWKV s inými metódami (Sentence Transformers) Stretnutie 15.2.2024 Úlohy: - Oboznámte sa s prácou [K. Sopkovič](/students/2019/kristian_sopkovic) a [M. Stromko](/students/2019/michal_stromko).