zpwiki/pages/students/2022/jakub_schwarc/README.md
2026-02-27 10:34:15 +01:00

56 lines
1.3 KiB
Markdown

---
title: Jakub Schwarc
published: true
taxonomy:
category: [dp2027]
tag: [nlp]
author: Daniel Hladek
---
rok začiatku štúdia: 2022
# Diplomový projekt 2026
Téma:
Inštrukčné dotrénovanie jazykového modelu
Ciele na semester:
- Dotrénujte a vyhodnotte Slovak Mistral.
Stretnutie 27.2.
- Obozn8mte sa problematikou podľa zadaných zdrojov.
- Pozrite si https://allenai.org/olmo
Úlohy:
- Oboznámte sa s problematikou veľkých jazykových modelov. Towards Data Science
- Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda.
- Poučte sa o strojovom účení. Dive into deep learning.
- Vyskúšajte si framework HF Transformers.
- Oboznámte sa s repozitárom https://github.com/allenai/open-instruct, prečítajte si články
- Oboznámte sa s repozitárom https://github.com/nlp-uoregon/Okapi, prečítajte si články
Zásobník úloh:
- Pracujte na teoretickej časti: opíšte základné pojmy, metódy a dátové množiny. Používajte google scholar a bibliografické odkazy.
- Najprv pracujte s domácou GPU, ak nebude stačiť pracujte s Google Coolab, ak nebude stačiť požiadajte konzultanta.
- Naštudovať a vyskúšať PEFT-QLORA.
- Oboznámte sa s knižnicou "unsloth".
- Oboznámte sa s Huggingface TRL.
- Oboznámte sa s https://github.com/hiyouga/LLaMA-Factory