zz

2025-10-03 10:33:24 +02:00 · 2025-10-03 10:33:24 +02:00 · 76de9e4c63
commit 76de9e4c63
parent 8429bdb20b
1 changed files with 24 additions and 0 deletions
--- a/pages/students/2022/valerii_kutsenko/README.md
+++ b/pages/students/2022/valerii_kutsenko/README.md
@ -9,6 +9,30 @@ taxonomy:

 rok začiatku štúdia: 2022

+# Diplomová práca 2027
+
+Nápady na tému:
+
+- Augmentácia dát - generovanie umelých trénovacích  množín.
+- Vyskúšať nové LLM na generovanie trénovacích dát.
+- Použiť existujúce dáta - zlepšiť ich pomocou LLM alebo generovať podobné dáta.
+- Generovať  a overovať dáta pre vyhodnotenie modelov.
+- Vyvmyslieť metódy pre vyhodnotenie "kvality dát" - ich "užitočnosť" pre trénovanie.
+- Preskúmať metídy "učiteľ - žiak." Ako môže jeden model pomôcť pri trénovaní iného modelu.
+- Vytvoriť novú doménovo orientovanú QA množinu.  Vytvoriť Instruct množinu.
+- Vytvoriť slovenský doménovo orientovaný model. 
+
+Stretnutie 3.10.
+
+Úlohy:
+
+- Oboznámiť sa s novými metódami generovania trénovacích množín. Prečítejte si nové články na google scholar a urobte si poznámky. 
+- Kľúčové slovíčka: data augmentation,  distillation, question generation, 
+- Pozrite si https://github.com/nlp-uoregon/Okapi
+- Vyskúšať nové LLM pre generovanie, napr. pomocou ollama. gpt-oss, 
+- Pozrite si https://huggingface.co/docs/trl/en/index. Oboznámte sa s metódami GPO a SFT. Ako dokáže pomôcť existujúci model pri dotrénovaní nového modelu. 
+
+
 # Bakalárska práca 2025

 Automatické generovanie otázok zo zadaného textu