History

dano 2e0e8aad52 Update pages/students/2020/pavol_hudak/README.md		2025-02-21 08:59:04 +00:00
..
README.md	Update pages/students/2020/pavol_hudak/README.md	2025-02-21 08:59:04 +00:00

README.md

title

published

taxonomy

Pavol Hudák

true

Diplomová práca 2025

Dotrénovanie veľkého jazykového modelu na odpovede v slovenčine

Zadanie:

Vypracujte prehľad veľkých jazykových modelov v slovenčine.
Vypracujte prehľad metód dotrénovania veľkých jazykových modelov.
Vyberte vhodnú dátovú množinu v slovenčine a dotrénujte veľký jazykový model.
Vyhodnoťte experimenty a navrhnite zlepšenia.

Ciel:

Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku.
Dotrénovanie a vyhodnotenie LLM na slovenský instruct dataset.
Strojový preklad vybranej množiny instruct.

Stretnutie 21.2.2025

Stav:

Natrénovaný Mistral 7B Slovak Alpaca (celej, 4 epochy) na quadro.
Strojové preklady Seamless do angličtiny (neviem na čo).
Použitý model Opus na backtranslation - alpaca.

Úlohy:

Zlepšite štruktúru aj text DP.
Vyhodnotte výsledný model. Vedúci dodá skripty. Alebo dodajte model vedúcemu. Výsledky dajte do práce.

Zásobník uloh:

Dotrénujte iný model, napr. GEMMA.
Po vyhodnotení skúste zlepšiť model - pridať nové dáta, pridať epochy.
Strojovo preložte vhodné zdroje na dotrénovanie. Konzultujte vedúceho.

Stretnutie 14.11.2024

Stav:

Dotrénovaný slovenský Mistral 7B na malej časti Slovak Alpaca ma Kaggle.
Pokračuje písanie.

Úlohy:

Pokračovať v trénovaní tak aby sa využila celá množina. Môžeme využiť školské servre. Vedúci vytvorí prístup.
Pokračujte v písaní
Zdrojové kódy dajte na GIT. Nedávajte tam dáta ani modely.

Zásobník úloh:

Dotrénujte aj iné modely a porovnajte výsledky.
Zverejnite dotrénovaný model alebo viac modelov na HF HUB. využijeme TUKE-KEMT org.

Stretnutie 15.10.

Stav:

Napísané 4 strany poznámok o Transformers.

Úlohy:

Dotrénujte slovenský model na instruct množine. Ako model použite https://huggingface.co/slovak-nlp/mistral-sk-7b a PEFT.
Nainštalujte si Ctranslate2 a model https://huggingface.co/facebook/m2m100_1.2B. Skúste preložiť OpenORCA. Použite server quadro alebo Kaggle.
Pracujte na texte DP - vysvetlite ako funguje model ChatGPT, Mistral a napíšte ako funguje "instruct model", uvedte odkazy na odborné články.

Diplomový projekt 2024

Ciele na semester:

Zobrať veľký jazykový model (základný alebo instruct alebo chat).
Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. Vieme sa inšpirovať výsledkami E. Matovka.
Strojovo preložiť vybranú databázu otázok a odpovedí a pomocou nej skúsiť vylepšiť model.
Vyhodnotiť presnosť QA dotrénovaného modelu.

Ďalšie nápady:

Automaticky zlepšiť "prompt" pre QA.

Vybrať jednu z úloh:

Tvorba instruct datasetu - Anotácia alebo preklad množín
Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT

Stretnutie 7.6.2024

Stav:

Práca na dotrénovaní LLama3 a Phi2 cez kaggle, zatiaľ nefunguje.

Stretnutie 5.4.

Stav:

Nainštalované PrivateGPT.
Nainštalovaná Anaconda a Python, aj štúdium a príprava.
Oboznámenie sa s LangChain a SlovakAlpaca aj PEFT.

Úlohy:

Skúste dotrénovať veľký jazykový model metódou PEFT s množinou SlovakAlpaca. Vyberte vhodný model.
Vyskúšajte modely cez ollama.
Prihláste sa na quadro.kemt.fei.tuke.sk tam nainštalujte anaconda. Vedúci Vám musí urobiť prístup.
Kandidáti sú UMT5, TinyLLama, LLama3, Mistral, mt0, Phi alebo iné.
Vyhodnote presnosť dotrénovania (BLEU - založené na porovnávaní ngramov výsledku a očakávania).
Robte si poznámky o tom ako funguje veľký jazykový model a metóda PEFT.

Zásobník úloh:

Strojovo preložiť databázu OpenORCA.

Stretnutie 23.2.

Stav:

Rozbehané prostredie s Pytorch aj CUDA Anaconda na vlastnom PC.
Vyskúšaný HF google/t5 ... na úlohu strojového prekladu

Úlohy:

Pokračujte v štúdiu podľa otvorených úloh.
Nainštalujte a vyskúšajte softvér PrivateGPT.
Prihláste sa na systém IDOC a nainštalujte si tam systém Anaconda.

Zásobník úloh:

Nainštalujte a vyskúšajte balíček LangChain.
Zistite čo je to metóda PEFT - LORA.
Skúste dotrénovať veľký jazykový model s množinou SlovakAlpaca.
Skúste vylepšiť LLM pomocou inej množiny, strojovo preloženej.

Stretnutie 14.2.

Úlohy:

Oboznámiť sa s veľkými jazykovými modelmi LLM. Ako funguje ChatGPT? Čo je to LLAMA? Napíšte si poznámky.
Nainštalujte si Anaconda.
[-] Pokračujte v štúdiu Python. Preštudujte si knihu Dive deep into deep learning.
Nainštalujte si knižnicu Huggingface Transformers.
Vyskúšajte LLM model LLAMA https://huggingface.co/meta-llama/Llama-2-70b
Prejdite si tento tutoriál https://huggingface.co/blog/llama2