diff --git a/pages/students/2020/david_kostilnik/README.md b/pages/students/2020/david_kostilnik/README.md index ccdfe6e33..242cdc5ed 100644 --- a/pages/students/2020/david_kostilnik/README.md +++ b/pages/students/2020/david_kostilnik/README.md @@ -18,14 +18,14 @@ Téma: Sémantické vyhľadávanie pomocou veľkých modelov - Tvorba datasetu prekladom, využitie existujúcich datasetov -- Dotrénovanie existujúceho modelu pomocou preloženého MS MARCO. +- Dotrénovanie existujúceho modelu typu BERT pomocou preloženého MS MARCO. Ciele: - Zlepšiť RAG. -Stretnutie 29.1.2024 +Stretnutie 29.10.2024 Stav: @@ -34,12 +34,14 @@ Stav: Úlohy: -- Podrobne si naštudujte a vyskúšajte framework Sentence Transformers. Využite Google Colab. -- Podrobne si naštudujte databázu MS MARCO. Zistite a vyskúšajte dotrénovanie anglického modelu na databáze MS Marco. +- Podrobne si naštudujte a vyskúšajte framework Sentence Transformers https://sbert.net/index.html. Využite Google Colab na príklady. +- Podrobne si naštudujte databázu MS MARCO. Zistite a vyskúšajte dotrénovanie anglického modelu typu BERT (bert, roberta, xlm, deberta ...) na databáze MS Marco. +- Píšte si poznámky o tom čo ste zistili o SBERT. Použite odkazy na vedecké články. Vedecké článkuý nájdete na Google Scholar. Zásobník úloh: - pracujte na servri quadro a prostredí Anaconda. +- Natrénujte slovenský BERT model na preloženej databáze MS MARCO (WIP K. Sopkovič).