forked from KEMT/zpwiki
Update pages/students/2020/pavol_hudak/README.md
This commit is contained in:
parent
22eec496fd
commit
1229f4bda7
@ -13,8 +13,30 @@ rok začiatku štúdia: 2020
|
||||
|
||||
Ciel:
|
||||
|
||||
- Vylepšiť slovenský veľký jazykový model. Vylepšiť RAG - retrieval augmented generation pre slovenčinu.
|
||||
- Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku.
|
||||
- Dotrénovanie a vyhodnotenie LLM na slovenský instruct dataset.
|
||||
- Strjový preklad vybranej množiny instruct.
|
||||
|
||||
|
||||
|
||||
|
||||
Stretnutie 15.10.
|
||||
|
||||
Stav:
|
||||
|
||||
- Napísané 4 strany poznámok o Transformers.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Dotrénujte slovenský model na instruct množine. Ako model použite https://huggingface.co/slovak-nlp/mistral-sk-7b a PEFT.
|
||||
- Nainštalujte si Ctranslate2 a model https://huggingface.co/facebook/m2m100_1.2B. Skúste preložiť OpenORCA.
|
||||
Použite server quadro alebo Kaggle.
|
||||
- Pracujte na texte DP - vysvetlite ako funguje model ChatGPT, Mistral a napíšte ako funguje "instruct model", uvedte odkazy na odborné články.
|
||||
|
||||
|
||||
|
||||
|
||||
# Diplomový projekt 2024
|
||||
|
||||
Ciele na semester:
|
||||
|
||||
@ -32,6 +54,7 @@ Vybrať jednu z úloh:
|
||||
- Tvorba instruct datasetu - Anotácia alebo preklad množín
|
||||
- Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT
|
||||
|
||||
|
||||
Stretnutie 7.6.2024
|
||||
|
||||
Stav:
|
||||
|
Loading…
Reference in New Issue
Block a user