forked from KEMT/zpwiki
		
	zz
This commit is contained in:
		
							parent
							
								
									13d98987c4
								
							
						
					
					
						commit
						4fbea422ab
					
				| @ -11,6 +11,25 @@ taxonomy: | ||||
| Daniel Hládek | ||||
| 
 | ||||
| 
 | ||||
| ## Nápady na projekty | ||||
| 
 | ||||
| - Čistenie dát - zlepšenie webových trénovacích korpusov. Identifikácia "neužitočných častí" textu. | ||||
| - Sumarizácia na súdnych alebo lekárskych dátach. | ||||
| - Dotrénovanie jazykového modelu pre súdnu alebo lekársky doménu. | ||||
| - Spracovanie pomenovaných entít - anonymizácia.  | ||||
| - Opis obrázku v slovenskom jazyku. Zatiaľ neviem ako. | ||||
| - Grafové neurónové siete - súdna doména. Alebo Open Data.  | ||||
| - Zber slovenských dát z webu. | ||||
| - Tvorba QA množiny z webu. | ||||
| - Tvorba nových trénovacích dát pomocou LLM - augmentácia, question generation. | ||||
| - RWKW - trénvoanie, dotrénovanie | ||||
| - Dotrénovanie T5-gen., MIstral modelov s rôznymi datbázami (qa, instruct, sumarizácia, hate speech). | ||||
| - LLM embeddingy na slovenčinu - využitie strojovo preložených databáz (MS Marco, Gigaword). | ||||
| - LLM Agents - function calling, REACT. | ||||
| - reinformcement v LLM - https://huggingface.co/docs/trl/index | ||||
| - Vytvorenie anotovaných dát v slovenčine. Akých? Reasoning? Grammar? Parallel? | ||||
| 
 | ||||
| 
 | ||||
| ## Bakalárske práce | ||||
| 
 | ||||
| Naučíte sa: | ||||
|  | ||||
		Loading…
	
		Reference in New Issue
	
	Block a user