From 1229f4bda7eca90ed7c84d5f838958da511957eb Mon Sep 17 00:00:00 2001 From: dano Date: Tue, 15 Oct 2024 08:49:06 +0000 Subject: [PATCH] Update pages/students/2020/pavol_hudak/README.md --- pages/students/2020/pavol_hudak/README.md | 25 ++++++++++++++++++++++- 1 file changed, 24 insertions(+), 1 deletion(-) diff --git a/pages/students/2020/pavol_hudak/README.md b/pages/students/2020/pavol_hudak/README.md index 580cb9fd..e78cd86c 100644 --- a/pages/students/2020/pavol_hudak/README.md +++ b/pages/students/2020/pavol_hudak/README.md @@ -13,8 +13,30 @@ rok začiatku štúdia: 2020 Ciel: -- Vylepšiť slovenský veľký jazykový model. Vylepšiť RAG - retrieval augmented generation pre slovenčinu. - Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku. +- Dotrénovanie a vyhodnotenie LLM na slovenský instruct dataset. +- Strjový preklad vybranej množiny instruct. + + + + +Stretnutie 15.10. + +Stav: + +- Napísané 4 strany poznámok o Transformers. + +Úlohy: + +- Dotrénujte slovenský model na instruct množine. Ako model použite https://huggingface.co/slovak-nlp/mistral-sk-7b a PEFT. +- Nainštalujte si Ctranslate2 a model https://huggingface.co/facebook/m2m100_1.2B. Skúste preložiť OpenORCA. +Použite server quadro alebo Kaggle. +- Pracujte na texte DP - vysvetlite ako funguje model ChatGPT, Mistral a napíšte ako funguje "instruct model", uvedte odkazy na odborné články. + + + + +# Diplomový projekt 2024 Ciele na semester: @@ -32,6 +54,7 @@ Vybrať jednu z úloh: - Tvorba instruct datasetu - Anotácia alebo preklad množín - Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT + Stretnutie 7.6.2024 Stav: