Update 'pages/students/2021/eduard_matovka/README.md'

This commit is contained in:
dano 2023-12-07 12:36:02 +00:00
parent 11393f2bad
commit bf46c12e69

View File

@ -32,7 +32,22 @@ Stretnutie 7.12.2023
Stav:
- Vytvorený skript pre trénovanie konverzácie LLAMA na datasete SlovakAlpaca na Google Colab. Využíva knižnicu HF, Na spustenie skripty nestačia zdroje na Google Colab.
- Vytvorený skript pre trénovanie konverzácie LLAMA na datasete SlovakAlpaca na Google Colab. Využíva knižnicu HF, Na spustenie skripty nestačia zdroje na Google Colab. Skript využíva PEFT.
- Vytvorený prístup na server Titan
Úlohy:
- Vytvorte si GIT repozitár na školskom GITe a dajte do neho Vaše skripty. Dáta tam nedávajte.
- Skúste natrénovať LLama na servri Titan s SlovakAlpaca Datasetom.
- Vyskúšajte natrénovať s datasetom sk-quad.
- Zistite ako sa vyhodnocujú "instruct" generatívne modely. Preštudujte si [repozitár](https://github.com/tatsu-lab/alpaca_eval) a napíšte si poznámky.
Zásobník úloh:
- Natrénujte model SlovakT5 s Slovak Alpaca Datasetom.
- Pozrite si skripty [text-generation](https://github.com/huggingface/transformers/tree/main/examples/pytorch/text-generation} a [seq2seq](https://github.com/huggingface/transformers/blob/main/examples/pytorch/question-answering/run_seq2seq_qa.py)
- Natrénovaný model je potrebné vyhodnotiť. Dátovú množinu si rozdelte na 2 časti. Metrika na vyhodnotenie je BLEU alebo Rouge.
- Pokračujte na práci na vlastnom diskusnom datasete.
Stretnutie 23.11.2023