Update pages/topics/otvorene/README.md
This commit is contained in:
		
							parent
							
								
									8df6fc4bf3
								
							
						
					
					
						commit
						78727972cd
					
				| @ -13,24 +13,24 @@ Daniel Hládek | |||||||
| 
 | 
 | ||||||
| ## Nápady na projekty | ## Nápady na projekty | ||||||
| 
 | 
 | ||||||
| - Čistenie dát - zlepšenie webových trénovacích korpusov. Identifikácia "neužitočných častí" textu. | - Čistenie dát - zlepšenie webových trénovacích korpusov. Identifikácia "neužitočných častí" textu. Reklámy, eshopy. Vulgárne diskusie. Zostavenie modelu pre identifikáciu. | ||||||
| - Sumarizácia na súdnych alebo lekárskych dátach. | - Sumarizácia na súdnych alebo lekárskych dátach. | ||||||
| - Dotrénovanie jazykového modelu pre súdnu alebo lekársku doménu. LORA/PEFT. | - Dotrénovanie jazykového modelu pre súdnu alebo lekársku doménu pomoocu LORA/PEFT. | ||||||
| - Spracovanie pomenovaných entít - anonymizácia.  | - Spracovanie pomenovaných entít - anonymizácia.  | ||||||
| - Opis obrázku v slovenskom jazyku. Zatiaľ neviem ako. |  | ||||||
| - Grafové neurónové siete - súdna doména. Alebo Open Data.  | - Grafové neurónové siete - súdna doména. Alebo Open Data.  | ||||||
| - Zber slovenských dát z webu. | - Zber slovenských dát z webu. | ||||||
| - Tvorba QA množiny z webu. | - Tvorba množiny otázok a odpovedí z webu. | ||||||
| - Tvorba nových trénovacích dát pomocou LLM - augmentácia, question generation. | - Tvorba nových trénovacích dát pomocou LLM - augmentácia, question generation. | ||||||
| - RWKW - trénvoanie, dotrénovanie | - RWKW - trénovanie, dotrénovanie. | ||||||
| - Dotrénovanie T5-gen., MIstral modelov s rôznymi datbázami (qa, instruct, sumarizácia, hate speech). | - Dotrénovanie T5-gen., MIstral modelov s rôznymi datbázami (qa, instruct, sumarizácia, hate speech). Zostavenie množiny pre dotrénovanie s instuct alebo prefix. | ||||||
| - LLM embeddingy na slovenčinu - využitie strojovo preložených databáz (MS Marco, Gigaword). | - Zlepšenie LLM embeddingov na slovenčinu - využitie strojovo preložených databáz (MS Marco, Gigaword). | ||||||
| - LLM Agents - function calling, REACT. | - LLM Agents - function calling, REACT. | ||||||
| - reinformcement v LLM - https://huggingface.co/docs/trl/index | - reinformcement v LLM - https://huggingface.co/docs/trl/index | ||||||
| - Vytvorenie anotovaných dát v slovenčine. Akých? Reasoning? Grammar? Parallel? |  | ||||||
| - Model distilation. |  | ||||||
| - Skript pre generovanie "gramatických chýb". | - Skript pre generovanie "gramatických chýb". | ||||||
| - Využitie a nasedenie veľkého LLM na naše servre. Napr. https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview | - Využitie a nasedenie veľkého LLM na naše servre. Napr. https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview | ||||||
|  | - Opis obrázku v slovenskom jazyku. Zatiaľ neviem ako. | ||||||
|  | - Vytvorenie anotovaných dát v slovenčine. Akých? Reasoning? Grammar? Parallel? | ||||||
|  | - Model distilation. | ||||||
| 
 | 
 | ||||||
| 
 | 
 | ||||||
| ## Bakalárske práce | ## Bakalárske práce | ||||||
|  | |||||||
		Loading…
	
		Reference in New Issue
	
	Block a user