Update 'pages/students/2019/kristian_sopkovic/README.md'
This commit is contained in:
parent
b620d8454e
commit
7d005f7894
@ -28,7 +28,7 @@ Cieľ je zlepšiť slovenské vyhľadávanie pomocou neurónových sietí.
|
|||||||
|
|
||||||
Námety na tému:
|
Námety na tému:
|
||||||
|
|
||||||
- Natrénujte alebo dotrénujte Sentence Transformer Model, alebo iný model pre sémantícké vyhľadávanie. Aké sú potrebné databázy? Je možné dotrénovať multilinguálny model?
|
- Natrénujte alebo dotrénujte Sentence Transformer Model, alebo iný model pre sémantícké vyhľadávanie. Aké sú potrebné databázy? Je možné dotrénovať *multilinguálny model*?
|
||||||
- Vytvorte databázu pre trénovanie SBERT. Strojový preklad, existujúcej NLI databázy, Semantic Textual Similarity databázy. Alebo ak získame grant, tak vytvoríme "originálnu" (klon) slovenskú databázu.
|
- Vytvorte databázu pre trénovanie SBERT. Strojový preklad, existujúcej NLI databázy, Semantic Textual Similarity databázy. Alebo ak získame grant, tak vytvoríme "originálnu" (klon) slovenskú databázu.
|
||||||
- Vytvorte kognitívne vyhľadávanie pre mesto Košice
|
- Vytvorte kognitívne vyhľadávanie pre mesto Košice
|
||||||
|
|
||||||
@ -45,7 +45,19 @@ Stav:
|
|||||||
- Spracované dáta z mesta Košice - 110 najčastejších otázok a odpovedí.
|
- Spracované dáta z mesta Košice - 110 najčastejších otázok a odpovedí.
|
||||||
- Nasadená 13B ChatLLama na Titan, 4 bit kvantizácia.
|
- Nasadená 13B ChatLLama na Titan, 4 bit kvantizácia.
|
||||||
|
|
||||||
Zásobn
|
|
||||||
|
Úlohy:
|
||||||
|
|
||||||
|
- Chceme vytvoriť model pre cross-lingual information retrieval. Model bude vedieť vytvoriť "vyhľadávací embedding" pre texty a otázky vo viacerých jazykoch.
|
||||||
|
- Na základe dostupných dát natrénujte takýto model. K dispozícii máme preloženú Slovak NLI, Anglickú NLI. Určite existujú aj iné jazyky. Zoberte viacero NLI databáz a dotrénujte z nich multilinguálny model. Aký model je najlepší ako "základ"? Možno multilinguálne SBERT: E5, mpnet, miniLM.
|
||||||
|
- Model vyhodndotte na dostupných databázach.
|
||||||
|
- Prečítajte si viacero nových článkov na tému "mutlilingual alebo crosslingual" "information retrieval" "document embeddings". Urobte si poznámky do DP.
|
||||||
|
|
||||||
|
Zásobník úloh:
|
||||||
|
|
||||||
|
- Košické dáta je možné využiť pri vyhdonotení.
|
||||||
|
- Možno dáta na vyhodnotenie slovenského IR vytvorí aj M. Stromko.
|
||||||
|
- Pripraviť API na ChatLLAma.
|
||||||
|
|
||||||
Stretnutie 28.9.20023
|
Stretnutie 28.9.20023
|
||||||
|
|
||||||
|
Loading…
Reference in New Issue
Block a user