Update pages/students/2020/pavol_hudak/README.md

This commit is contained in:
dano 2024-10-15 08:49:06 +00:00
parent 22eec496fd
commit 1229f4bda7

View File

@ -13,8 +13,30 @@ rok začiatku štúdia: 2020
Ciel:
- Vylepšiť slovenský veľký jazykový model. Vylepšiť RAG - retrieval augmented generation pre slovenčinu.
- Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku.
- Dotrénovanie a vyhodnotenie LLM na slovenský instruct dataset.
- Strjový preklad vybranej množiny instruct.
Stretnutie 15.10.
Stav:
- Napísané 4 strany poznámok o Transformers.
Úlohy:
- Dotrénujte slovenský model na instruct množine. Ako model použite https://huggingface.co/slovak-nlp/mistral-sk-7b a PEFT.
- Nainštalujte si Ctranslate2 a model https://huggingface.co/facebook/m2m100_1.2B. Skúste preložiť OpenORCA.
Použite server quadro alebo Kaggle.
- Pracujte na texte DP - vysvetlite ako funguje model ChatGPT, Mistral a napíšte ako funguje "instruct model", uvedte odkazy na odborné články.
# Diplomový projekt 2024
Ciele na semester:
@ -32,6 +54,7 @@ Vybrať jednu z úloh:
- Tvorba instruct datasetu - Anotácia alebo preklad množín
- Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT
Stretnutie 7.6.2024
Stav: