zpwiki/pages/students/2023/denis_le_thanh/README.md

2.8 KiB

title published taxonomy
Denis Le Thanh true
category tag author
bp2026
lm
nlp
Daniel Hladek

rok začiatku štúdia: 2023

študent KPI

vedúci Ing. Tomáš Kormaník

konzultácie: Ing. Kristián Sopkovič

Bakalárska práca 2026

Téma:

Trénovanie jazykového modelu pre spracovanie inštrukcií v prirodzenom jazyku

Ciele:

  • Skúsiť dotrénovať slovenský generatívny model (slovak-mistral-7b) pre inštrukcie.

Stretnutie 5.12. (K. Sopkovič)

Stav:

  • Analyticka praca cca 12 stran
  • Su potrebne vyhotiv zmeny - tema musi suvisiet so studijnum odborom - kyberbezpecnost (potrebna diskusia s D.Hladek). - Navrhujeme kontrolu obsahu instrukcii? Filter? Hate Speech model do pipeline? k dispozicii je fine tunning script ktory treba este doladit

Úlohy:

  • Skuste upravit poskytnuty script p.doc. Hladekom aby spojazdnil dotrenovanie pomocou QLORA na datasete https://huggingface.co/datasets/saillab/alpaca-slovak-cleaned/
  • Pre hlbsie experimenty bude treba vubavit pristup na server (zatial je vysoko doporucena free verzia na google collab) - odporucam video z youtube ako tutorial pre pracu v collabe - popripadne kontaktovat veduceho prace Ing. Kormanika pre vybavenie pristupu na DGX / podobny server vzhaldom na vypoctovu narocnost (tutorial ako pouzivat server bude poskytnuty konzultantom Sopkovicom)
  • Urobit prieskum moznych verejnych datesetov podobnym alpace, ktore by sa mohli pouzit

Stretnutie 3.10.2025

Stav:

  • Naštudované LLM, transformers, anaconda, Okapi, open instruct, ollama.

Úlohy:

  • Naštudovať a vyskúšať PEFT-QLORA.
  • Vyskúšajte si skript pre dotrénovanie Slovak Mistral.(poslal som cez Teams)
  • Oboznámte sa s Huggingface TRL.
  • Oboznámte sa s knižnicou "unsloth".
  • Oboznámte sa s https://github.com/hiyouga/LLaMA-Factory
  • Pracujte na teoretickej časti: opíšte základné pojmy, metódy a dátové množiny. Používajte google scholar a bibliografické odkazy.
  • Najprv pracujte s domácou GPU, ak nebude stačiť pracujte s Google Coolab, ak nebude stačiť požiadajte konzultanta.

Zásobník úloh:

  • Dotrénujte a vyhodnotte Slovak Mistral.

Stretnutie 26.2.

Úlohy:

  • Oboznámte sa s problematikou veľkých jazykových modelov. Towards Data Science
  • Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda.
  • Poučte sa o strojovom účení. Dive into deep learning.
  • Vyskúšajte si framework HF Transformers.
  • Vyskúšajte si veľký jazykový model, napr. cez systém OLLAMA.
  • Oboznámte sa s repozitárom https://github.com/allenai/open-instruct, prečítajte si články
  • Oboznámte sa s repozitárom https://github.com/nlp-uoregon/Okapi, prečítajte si články

Zásobník úloh:

  • Strojovo preložte vybranú množinu inštrukcií a použite ju v trénovaní.
  • Vyhodnotte výsledný model a porovnajte ho.