forked from KEMT/zpwiki
		
	Update 'pages/students/2019/kristian_sopkovic/README.md'
This commit is contained in:
		
							parent
							
								
									b620d8454e
								
							
						
					
					
						commit
						7d005f7894
					
				| @ -28,7 +28,7 @@ Cieľ je zlepšiť slovenské vyhľadávanie pomocou neurónových sietí. | |||||||
| 
 | 
 | ||||||
| Námety na tému: | Námety na tému: | ||||||
| 
 | 
 | ||||||
| - Natrénujte alebo dotrénujte Sentence Transformer Model, alebo iný model pre sémantícké vyhľadávanie. Aké sú potrebné databázy? Je možné dotrénovať multilinguálny model? | - Natrénujte alebo dotrénujte Sentence Transformer Model, alebo iný model pre sémantícké vyhľadávanie. Aké sú potrebné databázy? Je možné dotrénovať *multilinguálny model*? | ||||||
| - Vytvorte databázu pre trénovanie SBERT. Strojový preklad, existujúcej NLI databázy, Semantic Textual Similarity databázy. Alebo ak získame grant, tak vytvoríme "originálnu" (klon) slovenskú databázu. | - Vytvorte databázu pre trénovanie SBERT. Strojový preklad, existujúcej NLI databázy, Semantic Textual Similarity databázy. Alebo ak získame grant, tak vytvoríme "originálnu" (klon) slovenskú databázu. | ||||||
| - Vytvorte kognitívne vyhľadávanie pre mesto Košice  | - Vytvorte kognitívne vyhľadávanie pre mesto Košice  | ||||||
| 
 | 
 | ||||||
| @ -45,7 +45,19 @@ Stav: | |||||||
| - Spracované dáta z mesta Košice - 110 najčastejších otázok a odpovedí. | - Spracované dáta z mesta Košice - 110 najčastejších otázok a odpovedí. | ||||||
| - Nasadená 13B ChatLLama na Titan, 4 bit kvantizácia. | - Nasadená 13B ChatLLama na Titan, 4 bit kvantizácia. | ||||||
| 
 | 
 | ||||||
| Zásobn | 
 | ||||||
|  | Úlohy: | ||||||
|  | 
 | ||||||
|  | - Chceme vytvoriť model pre cross-lingual information retrieval. Model bude vedieť vytvoriť "vyhľadávací embedding" pre texty a otázky vo viacerých jazykoch. | ||||||
|  | - Na základe dostupných dát natrénujte takýto model. K dispozícii máme preloženú Slovak NLI, Anglickú NLI. Určite existujú aj iné jazyky. Zoberte viacero NLI databáz a dotrénujte z nich multilinguálny model. Aký model je najlepší ako "základ"? Možno multilinguálne SBERT: E5, mpnet, miniLM. | ||||||
|  | - Model vyhodndotte na dostupných databázach. | ||||||
|  | - Prečítajte si viacero nových článkov na tému "mutlilingual alebo crosslingual" "information retrieval" "document embeddings". Urobte si poznámky do DP. | ||||||
|  | 
 | ||||||
|  | Zásobník úloh: | ||||||
|  | 
 | ||||||
|  | - Košické dáta je možné využiť pri vyhdonotení. | ||||||
|  | - Možno dáta na vyhodnotenie slovenského IR vytvorí aj M. Stromko. | ||||||
|  | - Pripraviť API na ChatLLAma. | ||||||
| 
 | 
 | ||||||
| Stretnutie 28.9.20023 | Stretnutie 28.9.20023 | ||||||
| 
 | 
 | ||||||
|  | |||||||
		Loading…
	
		Reference in New Issue
	
	Block a user