---
title: Pavol Hudák
published: true
taxonomy:
    category: [dp2025]
    tag: [ir]
    author: Daniel Hladek
---

rok začiatku štúdia: 2020

# Diplomová práca 2025

Ciel:

- Vylepšiť slovenský veľký jazykový model. Vylepšiť RAG - retrieval augmented generation pre slovenčinu.
- Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku.

Ciele na semester:

- Zobrať veľký jazykový model (základný alebo instruct alebo chat). 
- Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. Vieme sa inšpirovať výsledkami E. Matovka.
- Strojovo preložiť vybranú databázu otázok a odpovedí a pomocou nej skúsiť vylepšiť model.
- Vyhodnotiť presnosť QA dotrénovaného modelu.

Ďalšie nápady:

- Automaticky zlepšiť "prompt" pre QA.

Vybrať jednu z úloh:

- Tvorba instruct datasetu - Anotácia alebo preklad množín
- Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT

Stretnutie 7.6.2024

Stav:

- Práca na dotrénovaní LLama3 a Phi2 cez kaggle, zatiaľ nefunguje.

Stretnutie 5.4.

Stav:

- Nainštalované PrivateGPT. 
- Nainštalovaná Anaconda a Python, aj štúdium a príprava.
- Oboznámenie sa s LangChain a SlovakAlpaca aj PEFT.

Úlohy:

- Skúste dotrénovať veľký jazykový model metódou PEFT s množinou SlovakAlpaca. Vyberte vhodný model.
- Vyskúšajte modely cez ollama.
- Prihláste sa na quadro.kemt.fei.tuke.sk tam nainštalujte anaconda. Vedúci Vám musí urobiť prístup.
- Kandidáti sú UMT5, TinyLLama, LLama3, Mistral, mt0, Phi alebo iné.
- Vyhodnote presnosť dotrénovania (BLEU - založené na porovnávaní ngramov výsledku a očakávania). 
- Robte si poznámky o tom ako funguje veľký jazykový model a metóda PEFT.

Zásobník úloh:

- Strojovo preložiť databázu OpenORCA. 

Stretnutie 23.2.

Stav:

- Rozbehané prostredie s Pytorch aj CUDA Anaconda na vlastnom PC.
- Vyskúšaný HF google/t5 ... na úlohu strojového prekladu

Úlohy:

- Pokračujte v štúdiu podľa otvorených úloh.
- Nainštalujte a vyskúšajte softvér PrivateGPT. 
- Prihláste sa na systém IDOC a nainštalujte si tam systém Anaconda.

Zásobník úloh:

- Nainštalujte a vyskúšajte balíček LangChain.
- Zistite čo je to metóda PEFT - LORA.
- Skúste dotrénovať veľký jazykový model s množinou SlovakAlpaca.
- Skúste vylepšiť LLM pomocou inej množiny, strojovo preloženej. 

Stretnutie 14.2.

Úlohy:

- [ ] Oboznámiť sa s veľkými jazykovými modelmi LLM. Ako funguje ChatGPT? Čo je to LLAMA?  Napíšte si poznámky.
- [x] Nainštalujte si Anaconda.
- [-] Pokračujte v štúdiu Python. Preštudujte si knihu Dive deep into deep learning.
- [x] Nainštalujte si knižnicu Huggingface Transformers. 
- [ ] Vyskúšajte LLM model LLAMA https://huggingface.co/meta-llama/Llama-2-70b
- [ ] Prejdite si tento tutoriál https://huggingface.co/blog/llama2