--- title: Pavol Hudák published: true taxonomy: category: [dp2025] tag: [ir] author: Daniel Hladek --- rok začiatku štúdia: 2020 # Diplomová práca 2025 Ciel: Vylepšiť slovenský veľký jazykový model. Vylepšiť RAG - retrieval augmented generation pre slovenčinu. Vybrať jednu z úloh: - Tvorba instruct datasetu - Anotácia alebo preklad množín - Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT - Rozpoznávanie nenávistnej reči (pomocou LLM?, prompting, finetuning) Stretnutie 23.2. Stav: - Rozbehané prostredie s Pytorch aj CUDA Anaconda na vlastnom PC. - Vyskúšaný HF google/t5 ... na úlohu strojového prekladu Úlohy: - Pokračujte v štúdiu podľa otvorených úloh. - Nainštalujte a vyskúšajte softvér PrivateGPT. - Prihláste sa na systém IDOC a nainštalujte si tam systém Anaconda. Zásobník úloh: - Nainštalujte a vyskúšajte balíček LangChain. - Zistite čo je to metóda PEFT - LORA. - Skúste dotrénovať veľký jazykový model s množinou SlovakAlpaca. - Skúste vylepšiť LLM pomocou inej množiny, strojovo preloženej. Stretnutie 14.2. Úlohy: - [ ] Oboznámiť sa s veľkými jazykovými modelmi LLM. Ako funguje ChatGPT? Čo je to LLAMA? Napíšte si poznámky. - [x] Nainštalujte si Anaconda. - [-] Pokračujte v štúdiu Python. Preštudujte si knihu Dive deep into deep learning. - [x] Nainštalujte si knižnicu Huggingface Transformers. - [ ] Vyskúšajte LLM model LLAMA https://huggingface.co/meta-llama/Llama-2-70b - [ ] Prejdite si tento tutoriál https://huggingface.co/blog/llama2