zz
This commit is contained in:
parent
13d98987c4
commit
4fbea422ab
@ -11,6 +11,25 @@ taxonomy:
|
|||||||
Daniel Hládek
|
Daniel Hládek
|
||||||
|
|
||||||
|
|
||||||
|
## Nápady na projekty
|
||||||
|
|
||||||
|
- Čistenie dát - zlepšenie webových trénovacích korpusov. Identifikácia "neužitočných častí" textu.
|
||||||
|
- Sumarizácia na súdnych alebo lekárskych dátach.
|
||||||
|
- Dotrénovanie jazykového modelu pre súdnu alebo lekársky doménu.
|
||||||
|
- Spracovanie pomenovaných entít - anonymizácia.
|
||||||
|
- Opis obrázku v slovenskom jazyku. Zatiaľ neviem ako.
|
||||||
|
- Grafové neurónové siete - súdna doména. Alebo Open Data.
|
||||||
|
- Zber slovenských dát z webu.
|
||||||
|
- Tvorba QA množiny z webu.
|
||||||
|
- Tvorba nových trénovacích dát pomocou LLM - augmentácia, question generation.
|
||||||
|
- RWKW - trénvoanie, dotrénovanie
|
||||||
|
- Dotrénovanie T5-gen., MIstral modelov s rôznymi datbázami (qa, instruct, sumarizácia, hate speech).
|
||||||
|
- LLM embeddingy na slovenčinu - využitie strojovo preložených databáz (MS Marco, Gigaword).
|
||||||
|
- LLM Agents - function calling, REACT.
|
||||||
|
- reinformcement v LLM - https://huggingface.co/docs/trl/index
|
||||||
|
- Vytvorenie anotovaných dát v slovenčine. Akých? Reasoning? Grammar? Parallel?
|
||||||
|
|
||||||
|
|
||||||
## Bakalárske práce
|
## Bakalárske práce
|
||||||
|
|
||||||
Naučíte sa:
|
Naučíte sa:
|
||||||
|
Loading…
Reference in New Issue
Block a user