KEMT/zpwiki

dano 576dc43627 Update pages/students/2020/pavol_hudak/README.md

2024-11-14 09:13:54 +00:00

3.9 KiB

Raw Blame History

title

published

taxonomy

Pavol Hudák

true

category

tag

author

dp2025

ir

Daniel Hladek

rok začiatku štúdia: 2020

Diplomová práca 2025

Ciel:

Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku.
Dotrénovanie a vyhodnotenie LLM na slovenský instruct dataset.
Strojový preklad vybranej množiny instruct.

Stretnutie 14.11.2024

Stav:

Dotrénovaný slovenský Mistral 7B na malej časti Slovak Alpaca ma Kaggle.
Pokračuje písanie.

Úlohy:

Pokračovať v trénovaní tak aby sa využila celá množina. Môžeme využiť školské servre. Vedúci vytvorí prístup.
Pokračujte v púísaní
Zdrojové kódy dajte na GIT. Nedávajte tam dáta ani modely.

Zásobník úloh:

Dotrénujte aj iné modely a porovnajte výsledky.
Zverejnite dotrénovaný model alebo viac modelov na HF HUB. využijeme TUKE-KEMT org.

Stretnutie 15.10.

Stav:

Napísané 4 strany poznámok o Transformers.

Úlohy:

Dotrénujte slovenský model na instruct množine. Ako model použite https://huggingface.co/slovak-nlp/mistral-sk-7b a PEFT.
Nainštalujte si Ctranslate2 a model https://huggingface.co/facebook/m2m100_1.2B. Skúste preložiť OpenORCA. Použite server quadro alebo Kaggle.
Pracujte na texte DP - vysvetlite ako funguje model ChatGPT, Mistral a napíšte ako funguje "instruct model", uvedte odkazy na odborné články.

Diplomový projekt 2024

Ciele na semester:

Zobrať veľký jazykový model (základný alebo instruct alebo chat).
Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. Vieme sa inšpirovať výsledkami E. Matovka.
Strojovo preložiť vybranú databázu otázok a odpovedí a pomocou nej skúsiť vylepšiť model.
Vyhodnotiť presnosť QA dotrénovaného modelu.

Ďalšie nápady:

Automaticky zlepšiť "prompt" pre QA.

Vybrať jednu z úloh:

Tvorba instruct datasetu - Anotácia alebo preklad množín
Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT

Stretnutie 7.6.2024

Stav:

Práca na dotrénovaní LLama3 a Phi2 cez kaggle, zatiaľ nefunguje.

Stretnutie 5.4.

Stav:

Nainštalované PrivateGPT.
Nainštalovaná Anaconda a Python, aj štúdium a príprava.
Oboznámenie sa s LangChain a SlovakAlpaca aj PEFT.

Úlohy:

Skúste dotrénovať veľký jazykový model metódou PEFT s množinou SlovakAlpaca. Vyberte vhodný model.
Vyskúšajte modely cez ollama.
Prihláste sa na quadro.kemt.fei.tuke.sk tam nainštalujte anaconda. Vedúci Vám musí urobiť prístup.
Kandidáti sú UMT5, TinyLLama, LLama3, Mistral, mt0, Phi alebo iné.
Vyhodnote presnosť dotrénovania (BLEU - založené na porovnávaní ngramov výsledku a očakávania).
Robte si poznámky o tom ako funguje veľký jazykový model a metóda PEFT.

Zásobník úloh:

Strojovo preložiť databázu OpenORCA.

Stretnutie 23.2.

Stav:

Rozbehané prostredie s Pytorch aj CUDA Anaconda na vlastnom PC.
Vyskúšaný HF google/t5 ... na úlohu strojového prekladu

Úlohy:

Pokračujte v štúdiu podľa otvorených úloh.
Nainštalujte a vyskúšajte softvér PrivateGPT.
Prihláste sa na systém IDOC a nainštalujte si tam systém Anaconda.

Zásobník úloh:

Nainštalujte a vyskúšajte balíček LangChain.
Zistite čo je to metóda PEFT - LORA.
Skúste dotrénovať veľký jazykový model s množinou SlovakAlpaca.
Skúste vylepšiť LLM pomocou inej množiny, strojovo preloženej.

Stretnutie 14.2.

Úlohy:

Oboznámiť sa s veľkými jazykovými modelmi LLM. Ako funguje ChatGPT? Čo je to LLAMA? Napíšte si poznámky.
Nainštalujte si Anaconda.
[-] Pokračujte v štúdiu Python. Preštudujte si knihu Dive deep into deep learning.
Nainštalujte si knižnicu Huggingface Transformers.
Vyskúšajte LLM model LLAMA https://huggingface.co/meta-llama/Llama-2-70b
Prejdite si tento tutoriál https://huggingface.co/blog/llama2