zpwiki/pages/students/2021/artur_hyrenko/README.md

3.8 KiB

title published taxonomy
Artur Hyrenko true
category tag author
dp2026
chatbot
rasa
dialog
nlp
Daniel Hladek

rok začiatku štúdia: 2021

Diplomová práca 2026

Vyhodnotenie jazykových modelov

(pre bezpečnostné problémy)

Možné ciele:

  • Zistiť, či sú súčasné jazyové modely bezpečné. Aké problémy obsahujú? Menia bezpečnostné vlastnosti na základe jazyka?
  • Vyhodnotiť viacero jazykových modelov vo viacerých jazykoch.
  • Navrhnúť zlepšenia na zvýšenie bezpečnosti.

Stretnutie 11.6. :

  • Štúdium a vyskúšanie Python, Anaconda Transformers
  • Písomné poznámky.
  • Zistil, že ChatGPT dokáže poradiť s útokom na AP alebo na iný server. Netreba to (model) veľa presviedčať.

Úlohy:

  • Pokračujte v praktickej príprave - Transformers
  • Vyskúšajte a naštudujte Huggingface TRL. Ako sa dá v modeloch potlačiť toxické správanie? Zistite čo je to RLHF.
  • Zistite, ako sa vyhodnocujú všeobecné jazykové modely.
  • Preštudujte si prácu a článok/
  • Vyhľadajte a preskúmajte existujúce dátové sady nebezpečných promptov. "corpus of dangerous-harmful prompts".
  • Zistite, ako sa vyhodnocujú modely z hľadiska bezpečnosti. Aké škody môžu spôsobiť jazykové modely? Napíšte poznámnky.

Zásobník úloh:

  • Rozšírte a preložte nebezpečné prompty. Aby sme dostali viacjazyčnú sadu (Slovensko-Anglicko-Ruská-Ukrajinská).
  • Pomocu tejto sady vyhodnoťte viacero jazykových modelov.
  • Implementujte vlastnú metódu na zvýšenie bezpečnosti modelu.

Stretnutie 4.4.2025

Stav:

  • Preštudované niektoré jazykové modely.

Úlohy:

  • Pokračujte v štúdiu Python, Anaconda, Transformers, dive into deep learning.
  • Napíšte poznámky o tom ako funguje model typu GPT, napr. LLAMA alebo DeepSeek. Napíšte ako sa trénuje - čo na to potrebujeme a v akých fázach to prebieha. Napíšte aj odkazy na odbornú literatúru.
  • Zisite ako prebieha dotrénovanie pomocou PEFT-LORA a napíšte o tom poznáky,
  • Zistite ako prebieha dotrénovanie typu reinforcement learning a napíšte o tom poznámky.

Zásobník úloh:

  • Môžeme riešiť problém bezpečnosti jazykových modelov. Ako upraviť model tak, aby neprezradil citlivé alebo nebezpečné informácie.
  • Dotrénujme existujúci jazykový model (napr. SlovakMistral) na úlohu instruct a využime reinforcement learning na potlačenie neželaných vlastností.

Stretnutie 28.2.2025

Stav:

  • Vyskúšané LM (cez ollama, aj API) Python (in progress).

Úlohy:

  • Pokračujte v štúdiu.
  • Pozrite sa na článok a dataset https://github.com/kinit-sk/gest . Urobte si poznámky. Zistite aké jazykové modely majú podporu slovenského jazyka. Zistite ako sa vyhodnocuje bias v jazykových modelov. Zistite, aké podobné množiny existujú pre iné jazyky.

Zásobník úloh:

Stretnutie 5.2.2025

Úlohy:

  • Oboznámte sa s problematikou veľkých jazykových modelov. Towards Data Science
  • Naučte sa Python lepšie
  • Poučte sa o strojovom účení.
  • Vyskúšajte si framework HF Transformers
  • Vyskúšajte si veľký jazykový model, napr. cez systém OLLAMA.
  • Oboznámte sa s frameworkom lm-eval-harness. Zistite, aké úlohy a aké metriky sa používajú.

Zásobník úloh:

  • Nájdite na webe zaujímavý zdroj otázok a odpovedí, ktorý by bol vhodný na vyhodnotneie jazykového modelu.
  • Vyberte úlohu vhodnú na anotáciu (spolu s vedúcim).