51 lines
1.2 KiB
Markdown
51 lines
1.2 KiB
Markdown
---
|
|
title: Jakub Schwartz
|
|
published: true
|
|
taxonomy:
|
|
category: [dp2027]
|
|
tag: [nlp]
|
|
author: Daniel Hladek
|
|
---
|
|
|
|
|
|
rok začiatku štúdia: 2022
|
|
|
|
# Diplomový projekt 2026
|
|
|
|
|
|
Téma:
|
|
|
|
Inštrukčné dotrénovanie jazykového modelu
|
|
|
|
Ciele na semester:
|
|
|
|
- Dotrénujte a vyhodnotte Slovak Mistral.
|
|
|
|
Úlohy:
|
|
|
|
- Oboznámte sa s problematikou veľkých jazykových modelov. Towards Data Science
|
|
- Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda.
|
|
- Poučte sa o strojovom účení. Dive into deep learning.
|
|
- Vyskúšajte si framework HF Transformers.
|
|
- Oboznámte sa s repozitárom https://github.com/allenai/open-instruct, prečítajte si články
|
|
- Oboznámte sa s repozitárom https://github.com/nlp-uoregon/Okapi, prečítajte si články
|
|
|
|
Zásobník úloh:
|
|
|
|
- Pracujte na teoretickej časti: opíšte základné pojmy, metódy a dátové množiny. Používajte google scholar a bibliografické odkazy.
|
|
- Najprv pracujte s domácou GPU, ak nebude stačiť pracujte s Google Coolab, ak nebude stačiť požiadajte konzultanta.
|
|
- Naštudovať a vyskúšať PEFT-QLORA.
|
|
- Oboznámte sa s Huggingface TRL.
|
|
- Oboznámte sa s knižnicou "unsloth".
|
|
- Oboznámte sa s https://github.com/hiyouga/LLaMA-Factory
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|