2024-02-14 11:00:10 +00:00
|
|
|
---
|
|
|
|
title: Pavol Hudák
|
|
|
|
published: true
|
|
|
|
taxonomy:
|
|
|
|
category: [dp2025]
|
|
|
|
tag: [ir]
|
|
|
|
author: Daniel Hladek
|
|
|
|
---
|
|
|
|
|
|
|
|
rok začiatku štúdia: 2020
|
|
|
|
|
|
|
|
# Diplomová práca 2025
|
|
|
|
|
|
|
|
Ciel:
|
|
|
|
|
2024-04-05 13:52:35 +00:00
|
|
|
- Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku.
|
2024-10-15 08:49:06 +00:00
|
|
|
- Dotrénovanie a vyhodnotenie LLM na slovenský instruct dataset.
|
2024-11-14 09:13:54 +00:00
|
|
|
- Strojový preklad vybranej množiny instruct.
|
2024-10-15 08:49:06 +00:00
|
|
|
|
2024-11-14 09:13:54 +00:00
|
|
|
Stretnutie 14.11.2024
|
2024-10-15 08:49:06 +00:00
|
|
|
|
2024-11-14 09:13:54 +00:00
|
|
|
Stav:
|
|
|
|
|
|
|
|
- Dotrénovaný slovenský Mistral 7B na malej časti Slovak Alpaca ma Kaggle.
|
|
|
|
- Pokračuje písanie.
|
|
|
|
|
|
|
|
Úlohy:
|
|
|
|
|
|
|
|
- Pokračovať v trénovaní tak aby sa využila celá množina. Môžeme využiť školské servre. Vedúci vytvorí prístup.
|
|
|
|
- Pokračujte v púísaní
|
|
|
|
- Zdrojové kódy dajte na GIT. Nedávajte tam dáta ani modely.
|
|
|
|
|
|
|
|
Zásobník úloh:
|
|
|
|
|
|
|
|
- Dotrénujte aj iné modely a porovnajte výsledky.
|
|
|
|
- Zverejnite dotrénovaný model alebo viac modelov na HF HUB. využijeme TUKE-KEMT org.
|
2024-10-15 08:49:06 +00:00
|
|
|
|
|
|
|
|
|
|
|
Stretnutie 15.10.
|
|
|
|
|
|
|
|
Stav:
|
|
|
|
|
|
|
|
- Napísané 4 strany poznámok o Transformers.
|
|
|
|
|
|
|
|
Úlohy:
|
|
|
|
|
|
|
|
- Dotrénujte slovenský model na instruct množine. Ako model použite https://huggingface.co/slovak-nlp/mistral-sk-7b a PEFT.
|
|
|
|
- Nainštalujte si Ctranslate2 a model https://huggingface.co/facebook/m2m100_1.2B. Skúste preložiť OpenORCA.
|
|
|
|
Použite server quadro alebo Kaggle.
|
|
|
|
- Pracujte na texte DP - vysvetlite ako funguje model ChatGPT, Mistral a napíšte ako funguje "instruct model", uvedte odkazy na odborné články.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
# Diplomový projekt 2024
|
2024-04-05 13:52:35 +00:00
|
|
|
|
|
|
|
Ciele na semester:
|
|
|
|
|
|
|
|
- Zobrať veľký jazykový model (základný alebo instruct alebo chat).
|
2024-04-05 14:02:34 +00:00
|
|
|
- Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. Vieme sa inšpirovať výsledkami E. Matovka.
|
|
|
|
- Strojovo preložiť vybranú databázu otázok a odpovedí a pomocou nej skúsiť vylepšiť model.
|
2024-04-05 13:52:35 +00:00
|
|
|
- Vyhodnotiť presnosť QA dotrénovaného modelu.
|
|
|
|
|
|
|
|
Ďalšie nápady:
|
|
|
|
|
2024-04-05 14:02:34 +00:00
|
|
|
- Automaticky zlepšiť "prompt" pre QA.
|
2024-02-14 11:00:10 +00:00
|
|
|
|
|
|
|
Vybrať jednu z úloh:
|
|
|
|
|
|
|
|
- Tvorba instruct datasetu - Anotácia alebo preklad množín
|
2024-02-23 14:46:22 +00:00
|
|
|
- Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT
|
2024-02-14 11:00:10 +00:00
|
|
|
|
2024-10-15 08:49:06 +00:00
|
|
|
|
2024-06-07 12:19:02 +00:00
|
|
|
Stretnutie 7.6.2024
|
|
|
|
|
|
|
|
Stav:
|
|
|
|
|
|
|
|
- Práca na dotrénovaní LLama3 a Phi2 cez kaggle, zatiaľ nefunguje.
|
|
|
|
|
2024-04-05 13:52:35 +00:00
|
|
|
Stretnutie 5.4.
|
|
|
|
|
|
|
|
Stav:
|
|
|
|
|
|
|
|
- Nainštalované PrivateGPT.
|
|
|
|
- Nainštalovaná Anaconda a Python, aj štúdium a príprava.
|
2024-04-05 14:02:34 +00:00
|
|
|
- Oboznámenie sa s LangChain a SlovakAlpaca aj PEFT.
|
|
|
|
|
|
|
|
Úlohy:
|
|
|
|
|
|
|
|
- Skúste dotrénovať veľký jazykový model metódou PEFT s množinou SlovakAlpaca. Vyberte vhodný model.
|
2024-04-05 14:11:07 +00:00
|
|
|
- Vyskúšajte modely cez ollama.
|
|
|
|
- Prihláste sa na quadro.kemt.fei.tuke.sk tam nainštalujte anaconda. Vedúci Vám musí urobiť prístup.
|
2024-06-07 12:19:02 +00:00
|
|
|
- Kandidáti sú UMT5, TinyLLama, LLama3, Mistral, mt0, Phi alebo iné.
|
2024-04-05 14:11:07 +00:00
|
|
|
- Vyhodnote presnosť dotrénovania (BLEU - založené na porovnávaní ngramov výsledku a očakávania).
|
|
|
|
- Robte si poznámky o tom ako funguje veľký jazykový model a metóda PEFT.
|
2024-04-05 14:02:34 +00:00
|
|
|
|
2024-04-05 14:11:07 +00:00
|
|
|
Zásobník úloh:
|
|
|
|
|
|
|
|
- Strojovo preložiť databázu OpenORCA.
|
2024-04-05 13:52:35 +00:00
|
|
|
|
2024-02-23 14:46:22 +00:00
|
|
|
Stretnutie 23.2.
|
|
|
|
|
|
|
|
Stav:
|
|
|
|
|
|
|
|
- Rozbehané prostredie s Pytorch aj CUDA Anaconda na vlastnom PC.
|
|
|
|
- Vyskúšaný HF google/t5 ... na úlohu strojového prekladu
|
|
|
|
|
|
|
|
Úlohy:
|
|
|
|
|
|
|
|
- Pokračujte v štúdiu podľa otvorených úloh.
|
|
|
|
- Nainštalujte a vyskúšajte softvér PrivateGPT.
|
|
|
|
- Prihláste sa na systém IDOC a nainštalujte si tam systém Anaconda.
|
|
|
|
|
|
|
|
Zásobník úloh:
|
|
|
|
|
|
|
|
- Nainštalujte a vyskúšajte balíček LangChain.
|
|
|
|
- Zistite čo je to metóda PEFT - LORA.
|
|
|
|
- Skúste dotrénovať veľký jazykový model s množinou SlovakAlpaca.
|
|
|
|
- Skúste vylepšiť LLM pomocou inej množiny, strojovo preloženej.
|
|
|
|
|
2024-02-14 11:00:10 +00:00
|
|
|
Stretnutie 14.2.
|
|
|
|
|
|
|
|
Úlohy:
|
|
|
|
|
2024-02-23 14:46:22 +00:00
|
|
|
- [ ] Oboznámiť sa s veľkými jazykovými modelmi LLM. Ako funguje ChatGPT? Čo je to LLAMA? Napíšte si poznámky.
|
|
|
|
- [x] Nainštalujte si Anaconda.
|
|
|
|
- [-] Pokračujte v štúdiu Python. Preštudujte si knihu Dive deep into deep learning.
|
|
|
|
- [x] Nainštalujte si knižnicu Huggingface Transformers.
|
|
|
|
- [ ] Vyskúšajte LLM model LLAMA https://huggingface.co/meta-llama/Llama-2-70b
|
|
|
|
- [ ] Prejdite si tento tutoriál https://huggingface.co/blog/llama2
|