From 4fbea422abe77607e95ee1245104c05e8df663de Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Tue, 21 Jan 2025 13:05:13 +0100 Subject: [PATCH] zz --- pages/topics/otvorene/README.md | 19 +++++++++++++++++++ 1 file changed, 19 insertions(+) diff --git a/pages/topics/otvorene/README.md b/pages/topics/otvorene/README.md index eecf9ea8a..74dc6959c 100644 --- a/pages/topics/otvorene/README.md +++ b/pages/topics/otvorene/README.md @@ -11,6 +11,25 @@ taxonomy: Daniel Hládek +## Nápady na projekty + +- Čistenie dát - zlepšenie webových trénovacích korpusov. Identifikácia "neužitočných častí" textu. +- Sumarizácia na súdnych alebo lekárskych dátach. +- Dotrénovanie jazykového modelu pre súdnu alebo lekársky doménu. +- Spracovanie pomenovaných entít - anonymizácia. +- Opis obrázku v slovenskom jazyku. Zatiaľ neviem ako. +- Grafové neurónové siete - súdna doména. Alebo Open Data. +- Zber slovenských dát z webu. +- Tvorba QA množiny z webu. +- Tvorba nových trénovacích dát pomocou LLM - augmentácia, question generation. +- RWKW - trénvoanie, dotrénovanie +- Dotrénovanie T5-gen., MIstral modelov s rôznymi datbázami (qa, instruct, sumarizácia, hate speech). +- LLM embeddingy na slovenčinu - využitie strojovo preložených databáz (MS Marco, Gigaword). +- LLM Agents - function calling, REACT. +- reinformcement v LLM - https://huggingface.co/docs/trl/index +- Vytvorenie anotovaných dát v slovenčine. Akých? Reasoning? Grammar? Parallel? + + ## Bakalárske práce Naučíte sa: