Update pages/students/2022/jakub_schwarc/README.md

This commit is contained in:
dano 2026-06-10 09:20:21 +00:00
parent 279f5e115d
commit 53835adf23

View File

@ -32,10 +32,31 @@ Stav:
Úlohy:
- Vytvorte GIT repozitár a dajte tam kódy.
- Pre LLmamaFactory dávajte na GIT konfigurácie.
- Rozšírte trénovaciu sadu - o zdroje v https://github.com/slovak-nlp/resources Zatiaľ najlepšie vyzerá byť CohereLabs/aya_collection_language_split
- Model zverejnite na HuggingFace hube.
- Napíšte si poznámky o aktuálnych metódach PEFT a SFT. Preštudujte si vedecké články z Google Scholar.
- Vyhodnotte model pomocu lm-evaluation-harness. Pozrite si výsledky https://wandb.ai/hladek/lmeval?nw=nwuserhladek
Príkaz na vyhodnotenie je
```
/home/dh343ko/miniconda3/envs/transformers/bin/lm-eval --model hf --model_args pretrained=google/mt5-large --tasks arc_sk,hellaswag_sk,m_mmlu_sk,truthfulqa_sk_mc1,truthfulqa_sk_mc2,sklegal,skquad --output_path zzz --wandb_args project=lmeval_mt5-large --device cuda:0 --batch_size 8
```
Zásobník úloh:
- Možno bude potrebné použiť lepší HW.
- Zlepšite proces vyhodnotenia. Dá sa použiť sk bech ktorý je v príprave.
- Zistite, čo je to zarovnanie jazykových modelov. Pozrite si framework huggingface trl. Zistite, čo je to meóda DPO a RLHF. Ku tomu existuje DP práca Hyrenko.
- Strojovo preložte vybranú množinu.
- Vytvorte github repozitár so skriptami pre dotrénovanie jazykovéo modelu.
Stretnutie 27.2.
- Obozn8mte sa problematikou podľa zadaných zdrojov.
- Oboznámte sa problematikou podľa zadaných zdrojov.
- Pozrite si https://allenai.org/olmo
Úlohy: