This commit is contained in:
Daniel Hládek 2025-10-03 10:33:24 +02:00
parent 8429bdb20b
commit 76de9e4c63

View File

@ -9,6 +9,30 @@ taxonomy:
rok začiatku štúdia: 2022
# Diplomová práca 2027
Nápady na tému:
- Augmentácia dát - generovanie umelých trénovacích množín.
- Vyskúšať nové LLM na generovanie trénovacích dát.
- Použiť existujúce dáta - zlepšiť ich pomocou LLM alebo generovať podobné dáta.
- Generovať a overovať dáta pre vyhodnotenie modelov.
- Vyvmyslieť metódy pre vyhodnotenie "kvality dát" - ich "užitočnosť" pre trénovanie.
- Preskúmať metídy "učiteľ - žiak." Ako môže jeden model pomôcť pri trénovaní iného modelu.
- Vytvoriť novú doménovo orientovanú QA množinu. Vytvoriť Instruct množinu.
- Vytvoriť slovenský doménovo orientovaný model.
Stretnutie 3.10.
Úlohy:
- Oboznámiť sa s novými metódami generovania trénovacích množín. Prečítejte si nové články na google scholar a urobte si poznámky.
- Kľúčové slovíčka: data augmentation, distillation, question generation,
- Pozrite si https://github.com/nlp-uoregon/Okapi
- Vyskúšať nové LLM pre generovanie, napr. pomocou ollama. gpt-oss,
- Pozrite si https://huggingface.co/docs/trl/en/index. Oboznámte sa s metódami GPO a SFT. Ako dokáže pomôcť existujúci model pri dotrénovaní nového modelu.
# Bakalárska práca 2025
Automatické generovanie otázok zo zadaného textu