--- title: Denis Le Thanh published: true taxonomy: category: [bp2026] tag: [lm,nlp] author: Daniel Hladek --- rok začiatku štúdia: 2023 študent KPI vedúci Ing. Tomáš Kormaník konzultácie: Ing. Kristián Sopkovič # Bakalárska práca 2026 Téma: Trénovanie jazykového modelu pre spracovanie inštrukcií v prirodzenom jazyku Ciele: - Skúsiť dotrénovať slovenský generatívny model (slovak-mistral-7b) pre inštrukcie. Stretnutie 3.10.2025 Stav: - Naštudované LLM, transformers, anaconda, Okapi, open instruct, ollama. Úlohy: - Naštudovať a vyskúšať PEFT-QLORA. - Vyskúšajte si skript pre dotrénovanie Slovak Mistral.(poslal som cez Teams) - Oboznámte sa s Huggingface TRL. - Oboznámte sa s knižnicou "unsloth". - Oboznámte sa s https://github.com/hiyouga/LLaMA-Factory - Pracujte na teoretickej časti: opíšte základné pojmy, metódy a dátové množiny. Používajte google scholar a bibliografické odkazy. - Najprv pracujte s domácou GPU, ak nebude stačiť pracujte s Google Coolab, ak nebude stačiť požiadajte konzultanta. Zásobník úloh: - Dotrénujte a vyhodnotte Slovak Mistral. Stretnutie 26.2. Úlohy: - Oboznámte sa s problematikou veľkých jazykových modelov. Towards Data Science - Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda. - Poučte sa o strojovom účení. Dive into deep learning. - Vyskúšajte si framework HF Transformers. - Vyskúšajte si veľký jazykový model, napr. cez systém OLLAMA. - Oboznámte sa s repozitárom https://github.com/allenai/open-instruct, prečítajte si články - Oboznámte sa s repozitárom https://github.com/nlp-uoregon/Okapi, prečítajte si články Zásobník úloh: - Strojovo preložte vybranú množinu inštrukcií a použite ju v trénovaní. - Vyhodnotte výsledný model a porovnajte ho.