di445js/zpwiki

forked from KEMT/zpwiki

dano 6784848681 Update pages/students/2021/artur_hyrenko/README.md

2025-04-04 14:24:06 +00:00

2.4 KiB

Raw Blame History

title

published

taxonomy

Artur Hyrenko

true

category

tag

author

dp2026

chatbot

rasa

dialog

nlp

Daniel Hladek

rok začiatku štúdia: 2021

Diplomová práca 2026

Vyhodndotenie jazykových modelov

Stretnutie 4.4.2025

Stav:

Preštudované niektoré jazykové modely.

Úlohy:

Pokračujte v štúdiu Python, Anaconda, Transformers, dive into deep learning.
Napíšte poznámky o tom ako funguje model typu GPT, napr. LLAMA alebo DeepSeek. Napíšte ako sa trénuje - čo na to potrebujeme a v akých fázach to prebieha. Napíšte aj odkazy na odbornú literatúru.
Zisite ako prebieha dotrénovanie pomocou PEFT-LORA a napíšte o tom poznáky,
Zistite ako prebieha dotrénovanie typu reinforcement learning a napíšte o tom poznámky.

Zásobník úloh:

Môžeme riešiť problém bezpečnosti jazykových modelov. Ako upraviť model tak, aby neprezradil citlivé alebo nebezpečné informácie.
Dotrénujme existujúci jazykový model (napr. SlovakMistral) na úlohu instruct a využime reinforcement learning na potlačenie neželaných vlastností.

Stretnutie 28.2.2025

Stav:

Vyskúšané LM (cez ollama, aj API) Python (in progress).

Úlohy:

Pokračujte v štúdiu.
Pozrite sa na článok a dataset https://github.com/kinit-sk/gest . Urobte si poznámky. Zistite aké jazykové modely majú podporu slovenského jazyka. Zistite ako sa vyhodnocuje bias v jazykových modelov. Zistite, aké podobné množiny existujú pre iné jazyky.

Zásobník úloh:

Porovnajte viaceré modely pre mieru výskyt rodových stereotypov. Môže byť aj pre viaceré jazyky (slovenčina, angličtina, ruština).
Zistitie, ako je možné potlačiť neželané vlastnosti modelu. (https://huggingface.co/docs/trl/en/index, https://github.com/allenai/open-instruct).

Stretnutie 5.2.2025

Úlohy:

Oboznámte sa s problematikou veľkých jazykových modelov. Towards Data Science
Naučte sa Python lepšie
Poučte sa o strojovom účení.
Vyskúšajte si framework HF Transformers
Vyskúšajte si veľký jazykový model, napr. cez systém OLLAMA.
Oboznámte sa s frameworkom lm-eval-harness. Zistite, aké úlohy a aké metriky sa používajú.

Zásobník úloh:

Nájdite na webe zaujímavý zdroj otázok a odpovedí, ktorý by bol vhodný na vyhodnotneie jazykového modelu.
Vyberte úlohu vhodnú na anotáciu (spolu s vedúcim).