forked from KEMT/zpwiki
		
	zz
This commit is contained in:
		
							parent
							
								
									13d98987c4
								
							
						
					
					
						commit
						4fbea422ab
					
				| @ -11,6 +11,25 @@ taxonomy: | |||||||
| Daniel Hládek | Daniel Hládek | ||||||
| 
 | 
 | ||||||
| 
 | 
 | ||||||
|  | ## Nápady na projekty | ||||||
|  | 
 | ||||||
|  | - Čistenie dát - zlepšenie webových trénovacích korpusov. Identifikácia "neužitočných častí" textu. | ||||||
|  | - Sumarizácia na súdnych alebo lekárskych dátach. | ||||||
|  | - Dotrénovanie jazykového modelu pre súdnu alebo lekársky doménu. | ||||||
|  | - Spracovanie pomenovaných entít - anonymizácia.  | ||||||
|  | - Opis obrázku v slovenskom jazyku. Zatiaľ neviem ako. | ||||||
|  | - Grafové neurónové siete - súdna doména. Alebo Open Data.  | ||||||
|  | - Zber slovenských dát z webu. | ||||||
|  | - Tvorba QA množiny z webu. | ||||||
|  | - Tvorba nových trénovacích dát pomocou LLM - augmentácia, question generation. | ||||||
|  | - RWKW - trénvoanie, dotrénovanie | ||||||
|  | - Dotrénovanie T5-gen., MIstral modelov s rôznymi datbázami (qa, instruct, sumarizácia, hate speech). | ||||||
|  | - LLM embeddingy na slovenčinu - využitie strojovo preložených databáz (MS Marco, Gigaword). | ||||||
|  | - LLM Agents - function calling, REACT. | ||||||
|  | - reinformcement v LLM - https://huggingface.co/docs/trl/index | ||||||
|  | - Vytvorenie anotovaných dát v slovenčine. Akých? Reasoning? Grammar? Parallel? | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
| ## Bakalárske práce | ## Bakalárske práce | ||||||
| 
 | 
 | ||||||
| Naučíte sa: | Naučíte sa: | ||||||
|  | |||||||
		Loading…
	
		Reference in New Issue
	
	Block a user