From 4fbea422abe77607e95ee1245104c05e8df663de Mon Sep 17 00:00:00 2001
From: Daniel Hladek <daniel.hladek@tuke.sk>
Date: Tue, 21 Jan 2025 13:05:13 +0100
Subject: [PATCH] zz

---
 pages/topics/otvorene/README.md | 19 +++++++++++++++++++
 1 file changed, 19 insertions(+)

diff --git a/pages/topics/otvorene/README.md b/pages/topics/otvorene/README.md
index eecf9ea8a7..74dc6959c6 100644
--- a/pages/topics/otvorene/README.md
+++ b/pages/topics/otvorene/README.md
@@ -11,6 +11,25 @@ taxonomy:
 Daniel Hládek
 
 
+## Nápady na projekty
+
+- Čistenie dát - zlepšenie webových trénovacích korpusov. Identifikácia "neužitočných častí" textu.
+- Sumarizácia na súdnych alebo lekárskych dátach.
+- Dotrénovanie jazykového modelu pre súdnu alebo lekársky doménu.
+- Spracovanie pomenovaných entít - anonymizácia. 
+- Opis obrázku v slovenskom jazyku. Zatiaľ neviem ako.
+- Grafové neurónové siete - súdna doména. Alebo Open Data. 
+- Zber slovenských dát z webu.
+- Tvorba QA množiny z webu.
+- Tvorba nových trénovacích dát pomocou LLM - augmentácia, question generation.
+- RWKW - trénvoanie, dotrénovanie
+- Dotrénovanie T5-gen., MIstral modelov s rôznymi datbázami (qa, instruct, sumarizácia, hate speech).
+- LLM embeddingy na slovenčinu - využitie strojovo preložených databáz (MS Marco, Gigaword).
+- LLM Agents - function calling, REACT.
+- reinformcement v LLM - https://huggingface.co/docs/trl/index
+- Vytvorenie anotovaných dát v slovenčine. Akých? Reasoning? Grammar? Parallel?
+
+
 ## Bakalárske práce
 
 Naučíte sa: