forked from KEMT/zpwiki
		
	| .. | ||
| README.md | ||
| title | published | taxonomy | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Pavol Hudák | true | 
  | 
rok začiatku štúdia: 2020
Diplomová práca 2025
Dotrénovanie veľkého jazykového modelu na odpovede v slovenčine
Zadanie:
- Vypracujte prehľad veľkých jazykových modelov v slovenčine.
 - Vypracujte prehľad metód dotrénovania veľkých jazykových modelov.
 - Vyberte vhodnú dátovú množinu v slovenčine a dotrénujte veľký jazykový model.
 - Vyhodnoťte experimenty a navrhnite zlepšenia.
 
Ciel:
- Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku.
 - Dotrénovanie a vyhodnotenie LLM na slovenský instruct dataset.
 - Strojový preklad vybranej množiny instruct.
 
Stretnutie 21.2.2025
Stav:
- Natrénovaný Mistral 7B Slovak Alpaca (celej, 4 epochy) na quadro.
 - Strojové preklady Seamless do angličtiny (neviem na čo).
 - Použitý model Opus na backtranslation - alpaca.
 
Úlohy:
- Zlepšite štruktúru aj text DP.
 - Vyhodnotte výsledný model. Vedúci dodá skripty. Alebo dodajte model vedúcemu. Výsledky dajte do práce.
 
Zásobník uloh:
- Dotrénujte iný model, napr. GEMMA.
 - Po vyhodnotení skúste zlepšiť model - pridať nové dáta, pridať epochy.
 - Strojovo preložte vhodné zdroje na dotrénovanie. Konzultujte vedúceho.
 
Stretnutie 14.11.2024
Stav:
- Dotrénovaný slovenský Mistral 7B na malej časti Slovak Alpaca ma Kaggle.
 - Pokračuje písanie.
 
Úlohy:
- Pokračovať v trénovaní tak aby sa využila celá množina. Môžeme využiť školské servre. Vedúci vytvorí prístup.
 - Pokračujte v písaní
 - Zdrojové kódy dajte na GIT. Nedávajte tam dáta ani modely.
 
Zásobník úloh:
- Dotrénujte aj iné modely a porovnajte výsledky.
 - Zverejnite dotrénovaný model alebo viac modelov na HF HUB. využijeme TUKE-KEMT org.
 
Stretnutie 15.10.
Stav:
- Napísané 4 strany poznámok o Transformers.
 
Úlohy:
- Dotrénujte slovenský model na instruct množine. Ako model použite https://huggingface.co/slovak-nlp/mistral-sk-7b a PEFT.
 - Nainštalujte si Ctranslate2 a model https://huggingface.co/facebook/m2m100_1.2B. Skúste preložiť OpenORCA. Použite server quadro alebo Kaggle.
 - Pracujte na texte DP - vysvetlite ako funguje model ChatGPT, Mistral a napíšte ako funguje "instruct model", uvedte odkazy na odborné články.
 
Diplomový projekt 2024
Ciele na semester:
- Zobrať veľký jazykový model (základný alebo instruct alebo chat).
 - Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. Vieme sa inšpirovať výsledkami E. Matovka.
 - Strojovo preložiť vybranú databázu otázok a odpovedí a pomocou nej skúsiť vylepšiť model.
 - Vyhodnotiť presnosť QA dotrénovaného modelu.
 
Ďalšie nápady:
- Automaticky zlepšiť "prompt" pre QA.
 
Vybrať jednu z úloh:
- Tvorba instruct datasetu - Anotácia alebo preklad množín
 - Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT
 
Stretnutie 7.6.2024
Stav:
- Práca na dotrénovaní LLama3 a Phi2 cez kaggle, zatiaľ nefunguje.
 
Stretnutie 5.4.
Stav:
- Nainštalované PrivateGPT.
 - Nainštalovaná Anaconda a Python, aj štúdium a príprava.
 - Oboznámenie sa s LangChain a SlovakAlpaca aj PEFT.
 
Úlohy:
- Skúste dotrénovať veľký jazykový model metódou PEFT s množinou SlovakAlpaca. Vyberte vhodný model.
 - Vyskúšajte modely cez ollama.
 - Prihláste sa na quadro.kemt.fei.tuke.sk tam nainštalujte anaconda. Vedúci Vám musí urobiť prístup.
 - Kandidáti sú UMT5, TinyLLama, LLama3, Mistral, mt0, Phi alebo iné.
 - Vyhodnote presnosť dotrénovania (BLEU - založené na porovnávaní ngramov výsledku a očakávania).
 - Robte si poznámky o tom ako funguje veľký jazykový model a metóda PEFT.
 
Zásobník úloh:
- Strojovo preložiť databázu OpenORCA.
 
Stretnutie 23.2.
Stav:
- Rozbehané prostredie s Pytorch aj CUDA Anaconda na vlastnom PC.
 - Vyskúšaný HF google/t5 ... na úlohu strojového prekladu
 
Úlohy:
- Pokračujte v štúdiu podľa otvorených úloh.
 - Nainštalujte a vyskúšajte softvér PrivateGPT.
 - Prihláste sa na systém IDOC a nainštalujte si tam systém Anaconda.
 
Zásobník úloh:
- Nainštalujte a vyskúšajte balíček LangChain.
 - Zistite čo je to metóda PEFT - LORA.
 - Skúste dotrénovať veľký jazykový model s množinou SlovakAlpaca.
 - Skúste vylepšiť LLM pomocou inej množiny, strojovo preloženej.
 
Stretnutie 14.2.
Úlohy:
- Oboznámiť sa s veľkými jazykovými modelmi LLM. Ako funguje ChatGPT? Čo je to LLAMA? Napíšte si poznámky.
 - Nainštalujte si Anaconda.
 - [-] Pokračujte v štúdiu Python. Preštudujte si knihu Dive deep into deep learning.
 - Nainštalujte si knižnicu Huggingface Transformers.
 - Vyskúšajte LLM model LLAMA https://huggingface.co/meta-llama/Llama-2-70b
 - Prejdite si tento tutoriál https://huggingface.co/blog/llama2