diff --git a/pages/students/2021/eduard_matovka/README.md b/pages/students/2021/eduard_matovka/README.md index 04f893c2e..51655791d 100644 --- a/pages/students/2021/eduard_matovka/README.md +++ b/pages/students/2021/eduard_matovka/README.md @@ -32,7 +32,22 @@ Stretnutie 7.12.2023 Stav: -- Vytvorený skript pre trénovanie konverzácie LLAMA na datasete SlovakAlpaca na Google Colab. Využíva knižnicu HF, Na spustenie skripty nestačia zdroje na Google Colab. +- Vytvorený skript pre trénovanie konverzácie LLAMA na datasete SlovakAlpaca na Google Colab. Využíva knižnicu HF, Na spustenie skripty nestačia zdroje na Google Colab. Skript využíva PEFT. +- Vytvorený prístup na server Titan + +Úlohy: + +- Vytvorte si GIT repozitár na školskom GITe a dajte do neho Vaše skripty. Dáta tam nedávajte. +- Skúste natrénovať LLama na servri Titan s SlovakAlpaca Datasetom. +- Vyskúšajte natrénovať s datasetom sk-quad. +- Zistite ako sa vyhodnocujú "instruct" generatívne modely. Preštudujte si [repozitár](https://github.com/tatsu-lab/alpaca_eval) a napíšte si poznámky. + +Zásobník úloh: + +- Natrénujte model SlovakT5 s Slovak Alpaca Datasetom. +- Pozrite si skripty [text-generation](https://github.com/huggingface/transformers/tree/main/examples/pytorch/text-generation} a [seq2seq](https://github.com/huggingface/transformers/blob/main/examples/pytorch/question-answering/run_seq2seq_qa.py) +- Natrénovaný model je potrebné vyhodnotiť. Dátovú množinu si rozdelte na 2 časti. Metrika na vyhodnotenie je BLEU alebo Rouge. +- Pokračujte na práci na vlastnom diskusnom datasete. Stretnutie 23.11.2023