forked from KEMT/zpwiki
		
	Update pages/topics/otvorene/README.md
This commit is contained in:
		
							parent
							
								
									8df6fc4bf3
								
							
						
					
					
						commit
						78727972cd
					
				@ -13,24 +13,24 @@ Daniel Hládek
 | 
				
			|||||||
 | 
					
 | 
				
			||||||
## Nápady na projekty
 | 
					## Nápady na projekty
 | 
				
			||||||
 | 
					
 | 
				
			||||||
- Čistenie dát - zlepšenie webových trénovacích korpusov. Identifikácia "neužitočných častí" textu.
 | 
					- Čistenie dát - zlepšenie webových trénovacích korpusov. Identifikácia "neužitočných častí" textu. Reklámy, eshopy. Vulgárne diskusie. Zostavenie modelu pre identifikáciu.
 | 
				
			||||||
- Sumarizácia na súdnych alebo lekárskych dátach.
 | 
					- Sumarizácia na súdnych alebo lekárskych dátach.
 | 
				
			||||||
- Dotrénovanie jazykového modelu pre súdnu alebo lekársku doménu. LORA/PEFT.
 | 
					- Dotrénovanie jazykového modelu pre súdnu alebo lekársku doménu pomoocu LORA/PEFT.
 | 
				
			||||||
- Spracovanie pomenovaných entít - anonymizácia. 
 | 
					- Spracovanie pomenovaných entít - anonymizácia. 
 | 
				
			||||||
- Opis obrázku v slovenskom jazyku. Zatiaľ neviem ako.
 | 
					 | 
				
			||||||
- Grafové neurónové siete - súdna doména. Alebo Open Data. 
 | 
					- Grafové neurónové siete - súdna doména. Alebo Open Data. 
 | 
				
			||||||
- Zber slovenských dát z webu.
 | 
					- Zber slovenských dát z webu.
 | 
				
			||||||
- Tvorba QA množiny z webu.
 | 
					- Tvorba množiny otázok a odpovedí z webu.
 | 
				
			||||||
- Tvorba nových trénovacích dát pomocou LLM - augmentácia, question generation.
 | 
					- Tvorba nových trénovacích dát pomocou LLM - augmentácia, question generation.
 | 
				
			||||||
- RWKW - trénvoanie, dotrénovanie
 | 
					- RWKW - trénovanie, dotrénovanie.
 | 
				
			||||||
- Dotrénovanie T5-gen., MIstral modelov s rôznymi datbázami (qa, instruct, sumarizácia, hate speech).
 | 
					- Dotrénovanie T5-gen., MIstral modelov s rôznymi datbázami (qa, instruct, sumarizácia, hate speech). Zostavenie množiny pre dotrénovanie s instuct alebo prefix.
 | 
				
			||||||
- LLM embeddingy na slovenčinu - využitie strojovo preložených databáz (MS Marco, Gigaword).
 | 
					- Zlepšenie LLM embeddingov na slovenčinu - využitie strojovo preložených databáz (MS Marco, Gigaword).
 | 
				
			||||||
- LLM Agents - function calling, REACT.
 | 
					- LLM Agents - function calling, REACT.
 | 
				
			||||||
- reinformcement v LLM - https://huggingface.co/docs/trl/index
 | 
					- reinformcement v LLM - https://huggingface.co/docs/trl/index
 | 
				
			||||||
- Vytvorenie anotovaných dát v slovenčine. Akých? Reasoning? Grammar? Parallel?
 | 
					 | 
				
			||||||
- Model distilation.
 | 
					 | 
				
			||||||
- Skript pre generovanie "gramatických chýb".
 | 
					- Skript pre generovanie "gramatických chýb".
 | 
				
			||||||
- Využitie a nasedenie veľkého LLM na naše servre. Napr. https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview
 | 
					- Využitie a nasedenie veľkého LLM na naše servre. Napr. https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview
 | 
				
			||||||
 | 
					- Opis obrázku v slovenskom jazyku. Zatiaľ neviem ako.
 | 
				
			||||||
 | 
					- Vytvorenie anotovaných dát v slovenčine. Akých? Reasoning? Grammar? Parallel?
 | 
				
			||||||
 | 
					- Model distilation.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
## Bakalárske práce
 | 
					## Bakalárske práce
 | 
				
			||||||
 | 
				
			|||||||
		Loading…
	
		Reference in New Issue
	
	Block a user