diff --git a/pages/students/2019/kristian_sopkovic/README.md b/pages/students/2019/kristian_sopkovic/README.md index ed1f26ca..9d642934 100644 --- a/pages/students/2019/kristian_sopkovic/README.md +++ b/pages/students/2019/kristian_sopkovic/README.md @@ -28,7 +28,7 @@ Cieľ je zlepšiť slovenské vyhľadávanie pomocou neurónových sietí. Námety na tému: -- Natrénujte alebo dotrénujte Sentence Transformer Model, alebo iný model pre sémantícké vyhľadávanie. Aké sú potrebné databázy? Je možné dotrénovať multilinguálny model? +- Natrénujte alebo dotrénujte Sentence Transformer Model, alebo iný model pre sémantícké vyhľadávanie. Aké sú potrebné databázy? Je možné dotrénovať *multilinguálny model*? - Vytvorte databázu pre trénovanie SBERT. Strojový preklad, existujúcej NLI databázy, Semantic Textual Similarity databázy. Alebo ak získame grant, tak vytvoríme "originálnu" (klon) slovenskú databázu. - Vytvorte kognitívne vyhľadávanie pre mesto Košice @@ -45,7 +45,19 @@ Stav: - Spracované dáta z mesta Košice - 110 najčastejších otázok a odpovedí. - Nasadená 13B ChatLLama na Titan, 4 bit kvantizácia. -Zásobn + +Úlohy: + +- Chceme vytvoriť model pre cross-lingual information retrieval. Model bude vedieť vytvoriť "vyhľadávací embedding" pre texty a otázky vo viacerých jazykoch. +- Na základe dostupných dát natrénujte takýto model. K dispozícii máme preloženú Slovak NLI, Anglickú NLI. Určite existujú aj iné jazyky. Zoberte viacero NLI databáz a dotrénujte z nich multilinguálny model. Aký model je najlepší ako "základ"? Možno multilinguálne SBERT: E5, mpnet, miniLM. +- Model vyhodndotte na dostupných databázach. +- Prečítajte si viacero nových článkov na tému "mutlilingual alebo crosslingual" "information retrieval" "document embeddings". Urobte si poznámky do DP. + +Zásobník úloh: + +- Košické dáta je možné využiť pri vyhdonotení. +- Možno dáta na vyhodnotenie slovenského IR vytvorí aj M. Stromko. +- Pripraviť API na ChatLLAma. Stretnutie 28.9.20023