diff --git a/pages/students/2022/valerii_kutsenko/README.md b/pages/students/2022/valerii_kutsenko/README.md index f96cd51c..dcdd7581 100644 --- a/pages/students/2022/valerii_kutsenko/README.md +++ b/pages/students/2022/valerii_kutsenko/README.md @@ -9,6 +9,30 @@ taxonomy: rok začiatku štúdia: 2022 +# Diplomová práca 2027 + +Nápady na tému: + +- Augmentácia dát - generovanie umelých trénovacích množín. +- Vyskúšať nové LLM na generovanie trénovacích dát. +- Použiť existujúce dáta - zlepšiť ich pomocou LLM alebo generovať podobné dáta. +- Generovať a overovať dáta pre vyhodnotenie modelov. +- Vyvmyslieť metódy pre vyhodnotenie "kvality dát" - ich "užitočnosť" pre trénovanie. +- Preskúmať metídy "učiteľ - žiak." Ako môže jeden model pomôcť pri trénovaní iného modelu. +- Vytvoriť novú doménovo orientovanú QA množinu. Vytvoriť Instruct množinu. +- Vytvoriť slovenský doménovo orientovaný model. + +Stretnutie 3.10. + +Úlohy: + +- Oboznámiť sa s novými metódami generovania trénovacích množín. Prečítejte si nové články na google scholar a urobte si poznámky. +- Kľúčové slovíčka: data augmentation, distillation, question generation, +- Pozrite si https://github.com/nlp-uoregon/Okapi +- Vyskúšať nové LLM pre generovanie, napr. pomocou ollama. gpt-oss, +- Pozrite si https://huggingface.co/docs/trl/en/index. Oboznámte sa s metódami GPO a SFT. Ako dokáže pomôcť existujúci model pri dotrénovaní nového modelu. + + # Bakalárska práca 2025 Automatické generovanie otázok zo zadaného textu