--- title: Pavol Hudák published: true taxonomy: category: [dp2025] tag: [ir] author: Daniel Hladek --- rok začiatku štúdia: 2020 # Diplomová práca 2025 Ciel: - Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku. - Dotrénovanie a vyhodnotenie LLM na slovenský instruct dataset. - Strojový preklad vybranej množiny instruct. Stretnutie 14.11.2024 Stav: - Dotrénovaný slovenský Mistral 7B na malej časti Slovak Alpaca ma Kaggle. - Pokračuje písanie. Úlohy: - Pokračovať v trénovaní tak aby sa využila celá množina. Môžeme využiť školské servre. Vedúci vytvorí prístup. - Pokračujte v púísaní - Zdrojové kódy dajte na GIT. Nedávajte tam dáta ani modely. Zásobník úloh: - Dotrénujte aj iné modely a porovnajte výsledky. - Zverejnite dotrénovaný model alebo viac modelov na HF HUB. využijeme TUKE-KEMT org. Stretnutie 15.10. Stav: - Napísané 4 strany poznámok o Transformers. Úlohy: - Dotrénujte slovenský model na instruct množine. Ako model použite https://huggingface.co/slovak-nlp/mistral-sk-7b a PEFT. - Nainštalujte si Ctranslate2 a model https://huggingface.co/facebook/m2m100_1.2B. Skúste preložiť OpenORCA. Použite server quadro alebo Kaggle. - Pracujte na texte DP - vysvetlite ako funguje model ChatGPT, Mistral a napíšte ako funguje "instruct model", uvedte odkazy na odborné články. # Diplomový projekt 2024 Ciele na semester: - Zobrať veľký jazykový model (základný alebo instruct alebo chat). - Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. Vieme sa inšpirovať výsledkami E. Matovka. - Strojovo preložiť vybranú databázu otázok a odpovedí a pomocou nej skúsiť vylepšiť model. - Vyhodnotiť presnosť QA dotrénovaného modelu. Ďalšie nápady: - Automaticky zlepšiť "prompt" pre QA. Vybrať jednu z úloh: - Tvorba instruct datasetu - Anotácia alebo preklad množín - Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT Stretnutie 7.6.2024 Stav: - Práca na dotrénovaní LLama3 a Phi2 cez kaggle, zatiaľ nefunguje. Stretnutie 5.4. Stav: - Nainštalované PrivateGPT. - Nainštalovaná Anaconda a Python, aj štúdium a príprava. - Oboznámenie sa s LangChain a SlovakAlpaca aj PEFT. Úlohy: - Skúste dotrénovať veľký jazykový model metódou PEFT s množinou SlovakAlpaca. Vyberte vhodný model. - Vyskúšajte modely cez ollama. - Prihláste sa na quadro.kemt.fei.tuke.sk tam nainštalujte anaconda. Vedúci Vám musí urobiť prístup. - Kandidáti sú UMT5, TinyLLama, LLama3, Mistral, mt0, Phi alebo iné. - Vyhodnote presnosť dotrénovania (BLEU - založené na porovnávaní ngramov výsledku a očakávania). - Robte si poznámky o tom ako funguje veľký jazykový model a metóda PEFT. Zásobník úloh: - Strojovo preložiť databázu OpenORCA. Stretnutie 23.2. Stav: - Rozbehané prostredie s Pytorch aj CUDA Anaconda na vlastnom PC. - Vyskúšaný HF google/t5 ... na úlohu strojového prekladu Úlohy: - Pokračujte v štúdiu podľa otvorených úloh. - Nainštalujte a vyskúšajte softvér PrivateGPT. - Prihláste sa na systém IDOC a nainštalujte si tam systém Anaconda. Zásobník úloh: - Nainštalujte a vyskúšajte balíček LangChain. - Zistite čo je to metóda PEFT - LORA. - Skúste dotrénovať veľký jazykový model s množinou SlovakAlpaca. - Skúste vylepšiť LLM pomocou inej množiny, strojovo preloženej. Stretnutie 14.2. Úlohy: - [ ] Oboznámiť sa s veľkými jazykovými modelmi LLM. Ako funguje ChatGPT? Čo je to LLAMA? Napíšte si poznámky. - [x] Nainštalujte si Anaconda. - [-] Pokračujte v štúdiu Python. Preštudujte si knihu Dive deep into deep learning. - [x] Nainštalujte si knižnicu Huggingface Transformers. - [ ] Vyskúšajte LLM model LLAMA https://huggingface.co/meta-llama/Llama-2-70b - [ ] Prejdite si tento tutoriál https://huggingface.co/blog/llama2