Update pages/topics/otvorene/README.md

This commit is contained in:
dano 2025-02-05 09:53:15 +00:00
parent 8df6fc4bf3
commit 78727972cd

View File

@ -13,24 +13,24 @@ Daniel Hládek
## Nápady na projekty
- Čistenie dát - zlepšenie webových trénovacích korpusov. Identifikácia "neužitočných častí" textu.
- Čistenie dát - zlepšenie webových trénovacích korpusov. Identifikácia "neužitočných častí" textu. Reklámy, eshopy. Vulgárne diskusie. Zostavenie modelu pre identifikáciu.
- Sumarizácia na súdnych alebo lekárskych dátach.
- Dotrénovanie jazykového modelu pre súdnu alebo lekársku doménu. LORA/PEFT.
- Dotrénovanie jazykového modelu pre súdnu alebo lekársku doménu pomoocu LORA/PEFT.
- Spracovanie pomenovaných entít - anonymizácia.
- Opis obrázku v slovenskom jazyku. Zatiaľ neviem ako.
- Grafové neurónové siete - súdna doména. Alebo Open Data.
- Zber slovenských dát z webu.
- Tvorba QA množiny z webu.
- Tvorba množiny otázok a odpovedí z webu.
- Tvorba nových trénovacích dát pomocou LLM - augmentácia, question generation.
- RWKW - trénvoanie, dotrénovanie
- Dotrénovanie T5-gen., MIstral modelov s rôznymi datbázami (qa, instruct, sumarizácia, hate speech).
- LLM embeddingy na slovenčinu - využitie strojovo preložených databáz (MS Marco, Gigaword).
- RWKW - trénovanie, dotrénovanie.
- Dotrénovanie T5-gen., MIstral modelov s rôznymi datbázami (qa, instruct, sumarizácia, hate speech). Zostavenie množiny pre dotrénovanie s instuct alebo prefix.
- Zlepšenie LLM embeddingov na slovenčinu - využitie strojovo preložených databáz (MS Marco, Gigaword).
- LLM Agents - function calling, REACT.
- reinformcement v LLM - https://huggingface.co/docs/trl/index
- Vytvorenie anotovaných dát v slovenčine. Akých? Reasoning? Grammar? Parallel?
- Model distilation.
- Skript pre generovanie "gramatických chýb".
- Využitie a nasedenie veľkého LLM na naše servre. Napr. https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview
- Opis obrázku v slovenskom jazyku. Zatiaľ neviem ako.
- Vytvorenie anotovaných dát v slovenčine. Akých? Reasoning? Grammar? Parallel?
- Model distilation.
## Bakalárske práce