--- title: Jakub Schwartz published: true taxonomy: category: [dp2027] tag: [nlp] author: Daniel Hladek --- rok začiatku štúdia: 2022 # Diplomový projekt 2026 Téma: Inštrukčné dotrénovanie jazykového modelu Ciele na semester: - Dotrénujte a vyhodnotte Slovak Mistral. Úlohy: - Oboznámte sa s problematikou veľkých jazykových modelov. Towards Data Science - Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda. - Poučte sa o strojovom účení. Dive into deep learning. - Vyskúšajte si framework HF Transformers. - Oboznámte sa s repozitárom https://github.com/allenai/open-instruct, prečítajte si články - Oboznámte sa s repozitárom https://github.com/nlp-uoregon/Okapi, prečítajte si články Zásobník úloh: - Pracujte na teoretickej časti: opíšte základné pojmy, metódy a dátové množiny. Používajte google scholar a bibliografické odkazy. - Najprv pracujte s domácou GPU, ak nebude stačiť pracujte s Google Coolab, ak nebude stačiť požiadajte konzultanta. - Naštudovať a vyskúšať PEFT-QLORA. - Oboznámte sa s Huggingface TRL. - Oboznámte sa s knižnicou "unsloth". - Oboznámte sa s https://github.com/hiyouga/LLaMA-Factory