Compare commits

...

2 Commits

Author SHA1 Message Date
98c2db90c6 Merge branch 'master' of git.kemt.fei.tuke.sk:KEMT/zpwiki 2025-01-21 13:05:18 +01:00
4fbea422ab zz 2025-01-21 13:05:13 +01:00

View File

@ -11,6 +11,25 @@ taxonomy:
Daniel Hládek
## Nápady na projekty
- Čistenie dát - zlepšenie webových trénovacích korpusov. Identifikácia "neužitočných častí" textu.
- Sumarizácia na súdnych alebo lekárskych dátach.
- Dotrénovanie jazykového modelu pre súdnu alebo lekársky doménu.
- Spracovanie pomenovaných entít - anonymizácia.
- Opis obrázku v slovenskom jazyku. Zatiaľ neviem ako.
- Grafové neurónové siete - súdna doména. Alebo Open Data.
- Zber slovenských dát z webu.
- Tvorba QA množiny z webu.
- Tvorba nových trénovacích dát pomocou LLM - augmentácia, question generation.
- RWKW - trénvoanie, dotrénovanie
- Dotrénovanie T5-gen., MIstral modelov s rôznymi datbázami (qa, instruct, sumarizácia, hate speech).
- LLM embeddingy na slovenčinu - využitie strojovo preložených databáz (MS Marco, Gigaword).
- LLM Agents - function calling, REACT.
- reinformcement v LLM - https://huggingface.co/docs/trl/index
- Vytvorenie anotovaných dát v slovenčine. Akých? Reasoning? Grammar? Parallel?
## Bakalárske práce
Naučíte sa: