dmytro_ushatenko/pages/students/2020/pavol_hudak/README.md

---
title: Pavol Hudák
published: true
taxonomy:
    category: [dp2025]
    tag: [ir]
    author: Daniel Hladek
---

rok začiatku štúdia: 2020

# Diplomová práca 2025

Ciel:

- Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku.
- Dotrénovanie a vyhodnotenie LLM na slovenský instruct dataset.
- Strojový preklad vybranej množiny instruct.

Stretnutie 14.11.2024

Stav:

- Dotrénovaný slovenský Mistral 7B na malej časti Slovak Alpaca ma Kaggle.
- Pokračuje písanie.

Úlohy:

- Pokračovať v trénovaní tak aby sa využila celá množina. Môžeme využiť školské servre. Vedúci vytvorí prístup.
- Pokračujte v púísaní
- Zdrojové kódy dajte na GIT. Nedávajte tam dáta ani modely.

Zásobník úloh:
 
- Dotrénujte aj iné modely a porovnajte výsledky.
- Zverejnite dotrénovaný model alebo viac modelov  na HF HUB. využijeme TUKE-KEMT org. 


Stretnutie 15.10.

Stav:

- Napísané 4 strany poznámok o Transformers.

Úlohy:

- Dotrénujte slovenský model na instruct množine. Ako model použite https://huggingface.co/slovak-nlp/mistral-sk-7b a PEFT. 
- Nainštalujte si Ctranslate2 a model https://huggingface.co/facebook/m2m100_1.2B. Skúste preložiť OpenORCA.
Použite server quadro alebo Kaggle. 
- Pracujte na texte DP - vysvetlite ako funguje model ChatGPT, Mistral a napíšte ako funguje "instruct model", uvedte odkazy na odborné články. 


# Diplomový projekt 2024

Ciele na semester:

- Zobrať veľký jazykový model (základný alebo instruct alebo chat). 
- Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. Vieme sa inšpirovať výsledkami E. Matovka.
- Strojovo preložiť vybranú databázu otázok a odpovedí a pomocou nej skúsiť vylepšiť model.
- Vyhodnotiť presnosť QA dotrénovaného modelu.

Ďalšie nápady:

- Automaticky zlepšiť "prompt" pre QA.

Vybrať jednu z úloh:

- Tvorba instruct datasetu - Anotácia alebo preklad množín
- Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT


Stretnutie 7.6.2024

Stav:

- Práca na dotrénovaní LLama3 a Phi2 cez kaggle, zatiaľ nefunguje.

Stretnutie 5.4.

Stav:

- Nainštalované PrivateGPT. 
- Nainštalovaná Anaconda a Python, aj štúdium a príprava.
- Oboznámenie sa s LangChain a SlovakAlpaca aj PEFT.

Úlohy:

- Skúste dotrénovať veľký jazykový model metódou PEFT s množinou SlovakAlpaca. Vyberte vhodný model.
- Vyskúšajte modely cez ollama.
- Prihláste sa na quadro.kemt.fei.tuke.sk tam nainštalujte anaconda. Vedúci Vám musí urobiť prístup.
- Kandidáti sú UMT5, TinyLLama, LLama3, Mistral, mt0, Phi alebo iné.
- Vyhodnote presnosť dotrénovania (BLEU - založené na porovnávaní ngramov výsledku a očakávania). 
- Robte si poznámky o tom ako funguje veľký jazykový model a metóda PEFT.

Zásobník úloh:

- Strojovo preložiť databázu OpenORCA. 

Stretnutie 23.2.

Stav:

- Rozbehané prostredie s Pytorch aj CUDA Anaconda na vlastnom PC.
- Vyskúšaný HF google/t5 ... na úlohu strojového prekladu

Úlohy:

- Pokračujte v štúdiu podľa otvorených úloh.
- Nainštalujte a vyskúšajte softvér PrivateGPT. 
- Prihláste sa na systém IDOC a nainštalujte si tam systém Anaconda.

Zásobník úloh:

- Nainštalujte a vyskúšajte balíček LangChain.
- Zistite čo je to metóda PEFT - LORA.
- Skúste dotrénovať veľký jazykový model s množinou SlovakAlpaca.
- Skúste vylepšiť LLM pomocou inej množiny, strojovo preloženej. 

Stretnutie 14.2.

Úlohy:

- [ ] Oboznámiť sa s veľkými jazykovými modelmi LLM. Ako funguje ChatGPT? Čo je to LLAMA?  Napíšte si poznámky.
- [x] Nainštalujte si Anaconda.
- [-] Pokračujte v štúdiu Python. Preštudujte si knihu Dive deep into deep learning.
- [x] Nainštalujte si knižnicu Huggingface Transformers. 
- [ ] Vyskúšajte LLM model LLAMA https://huggingface.co/meta-llama/Llama-2-70b
- [ ] Prejdite si tento tutoriál https://huggingface.co/blog/llama2
zz 2024-02-14 11:00:10 +00:00			`---`
			`title: Pavol Hudák`
			`published: true`
			`taxonomy:`
			`category: [dp2025]`
			`tag: [ir]`
			`author: Daniel Hladek`
			`---`

			`rok začiatku štúdia: 2020`

			`# Diplomová práca 2025`

			`Ciel:`

Update 'pages/students/2020/pavol_hudak/README.md' 2024-04-05 13:52:35 +00:00			`- Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku.`
Update pages/students/2020/pavol_hudak/README.md 2024-10-15 08:49:06 +00:00			`- Dotrénovanie a vyhodnotenie LLM na slovenský instruct dataset.`
Update pages/students/2020/pavol_hudak/README.md 2024-11-14 09:13:54 +00:00			`- Strojový preklad vybranej množiny instruct.`
Update pages/students/2020/pavol_hudak/README.md 2024-10-15 08:49:06 +00:00
Update pages/students/2020/pavol_hudak/README.md 2024-11-14 09:13:54 +00:00			`Stretnutie 14.11.2024`
Update pages/students/2020/pavol_hudak/README.md 2024-10-15 08:49:06 +00:00
Update pages/students/2020/pavol_hudak/README.md 2024-11-14 09:13:54 +00:00			`Stav:`

			`- Dotrénovaný slovenský Mistral 7B na malej časti Slovak Alpaca ma Kaggle.`
			`- Pokračuje písanie.`

			`Úlohy:`

			`- Pokračovať v trénovaní tak aby sa využila celá množina. Môžeme využiť školské servre. Vedúci vytvorí prístup.`
			`- Pokračujte v púísaní`
			`- Zdrojové kódy dajte na GIT. Nedávajte tam dáta ani modely.`

			`Zásobník úloh:`

			`- Dotrénujte aj iné modely a porovnajte výsledky.`
			`- Zverejnite dotrénovaný model alebo viac modelov na HF HUB. využijeme TUKE-KEMT org.`
Update pages/students/2020/pavol_hudak/README.md 2024-10-15 08:49:06 +00:00

			`Stretnutie 15.10.`

			`Stav:`

			`- Napísané 4 strany poznámok o Transformers.`

			`Úlohy:`

			`- Dotrénujte slovenský model na instruct množine. Ako model použite https://huggingface.co/slovak-nlp/mistral-sk-7b a PEFT.`
			`- Nainštalujte si Ctranslate2 a model https://huggingface.co/facebook/m2m100_1.2B. Skúste preložiť OpenORCA.`
			`Použite server quadro alebo Kaggle.`
			`- Pracujte na texte DP - vysvetlite ako funguje model ChatGPT, Mistral a napíšte ako funguje "instruct model", uvedte odkazy na odborné články.`




			`# Diplomový projekt 2024`
Update 'pages/students/2020/pavol_hudak/README.md' 2024-04-05 13:52:35 +00:00
			`Ciele na semester:`

			`- Zobrať veľký jazykový model (základný alebo instruct alebo chat).`
Update 'pages/students/2020/pavol_hudak/README.md' 2024-04-05 14:02:34 +00:00			`- Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. Vieme sa inšpirovať výsledkami E. Matovka.`
			`- Strojovo preložiť vybranú databázu otázok a odpovedí a pomocou nej skúsiť vylepšiť model.`
Update 'pages/students/2020/pavol_hudak/README.md' 2024-04-05 13:52:35 +00:00			`- Vyhodnotiť presnosť QA dotrénovaného modelu.`

			`Ďalšie nápady:`

Update 'pages/students/2020/pavol_hudak/README.md' 2024-04-05 14:02:34 +00:00			`- Automaticky zlepšiť "prompt" pre QA.`
zz 2024-02-14 11:00:10 +00:00
			`Vybrať jednu z úloh:`

			`- Tvorba instruct datasetu - Anotácia alebo preklad množín`
Update 'pages/students/2020/pavol_hudak/README.md' 2024-02-23 14:46:22 +00:00			`- Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT`
zz 2024-02-14 11:00:10 +00:00
Update pages/students/2020/pavol_hudak/README.md 2024-10-15 08:49:06 +00:00
Update 'pages/students/2020/pavol_hudak/README.md' 2024-06-07 12:19:02 +00:00			`Stretnutie 7.6.2024`

			`Stav:`

			`- Práca na dotrénovaní LLama3 a Phi2 cez kaggle, zatiaľ nefunguje.`

Update 'pages/students/2020/pavol_hudak/README.md' 2024-04-05 13:52:35 +00:00			`Stretnutie 5.4.`

			`Stav:`

			`- Nainštalované PrivateGPT.`
			`- Nainštalovaná Anaconda a Python, aj štúdium a príprava.`
Update 'pages/students/2020/pavol_hudak/README.md' 2024-04-05 14:02:34 +00:00			`- Oboznámenie sa s LangChain a SlovakAlpaca aj PEFT.`

			`Úlohy:`

			`- Skúste dotrénovať veľký jazykový model metódou PEFT s množinou SlovakAlpaca. Vyberte vhodný model.`
Update 'pages/students/2020/pavol_hudak/README.md' 2024-04-05 14:11:07 +00:00			`- Vyskúšajte modely cez ollama.`
			`- Prihláste sa na quadro.kemt.fei.tuke.sk tam nainštalujte anaconda. Vedúci Vám musí urobiť prístup.`
Update 'pages/students/2020/pavol_hudak/README.md' 2024-06-07 12:19:02 +00:00			`- Kandidáti sú UMT5, TinyLLama, LLama3, Mistral, mt0, Phi alebo iné.`
Update 'pages/students/2020/pavol_hudak/README.md' 2024-04-05 14:11:07 +00:00			`- Vyhodnote presnosť dotrénovania (BLEU - založené na porovnávaní ngramov výsledku a očakávania).`
			`- Robte si poznámky o tom ako funguje veľký jazykový model a metóda PEFT.`
Update 'pages/students/2020/pavol_hudak/README.md' 2024-04-05 14:02:34 +00:00
Update 'pages/students/2020/pavol_hudak/README.md' 2024-04-05 14:11:07 +00:00			`Zásobník úloh:`

			`- Strojovo preložiť databázu OpenORCA.`
Update 'pages/students/2020/pavol_hudak/README.md' 2024-04-05 13:52:35 +00:00
Update 'pages/students/2020/pavol_hudak/README.md' 2024-02-23 14:46:22 +00:00			`Stretnutie 23.2.`

			`Stav:`

			`- Rozbehané prostredie s Pytorch aj CUDA Anaconda na vlastnom PC.`
			`- Vyskúšaný HF google/t5 ... na úlohu strojového prekladu`

			`Úlohy:`

			`- Pokračujte v štúdiu podľa otvorených úloh.`
			`- Nainštalujte a vyskúšajte softvér PrivateGPT.`
			`- Prihláste sa na systém IDOC a nainštalujte si tam systém Anaconda.`

			`Zásobník úloh:`

			`- Nainštalujte a vyskúšajte balíček LangChain.`
			`- Zistite čo je to metóda PEFT - LORA.`
			`- Skúste dotrénovať veľký jazykový model s množinou SlovakAlpaca.`
			`- Skúste vylepšiť LLM pomocou inej množiny, strojovo preloženej.`

zz 2024-02-14 11:00:10 +00:00			`Stretnutie 14.2.`

			`Úlohy:`

Update 'pages/students/2020/pavol_hudak/README.md' 2024-02-23 14:46:22 +00:00			`- [ ] Oboznámiť sa s veľkými jazykovými modelmi LLM. Ako funguje ChatGPT? Čo je to LLAMA? Napíšte si poznámky.`
			`- [x] Nainštalujte si Anaconda.`
			`- [-] Pokračujte v štúdiu Python. Preštudujte si knihu Dive deep into deep learning.`
			`- [x] Nainštalujte si knižnicu Huggingface Transformers.`
			`- [ ] Vyskúšajte LLM model LLAMA https://huggingface.co/meta-llama/Llama-2-70b`
			`- [ ] Prejdite si tento tutoriál https://huggingface.co/blog/llama2`