forked from KEMT/zpwiki
102 lines
3.8 KiB
Markdown
102 lines
3.8 KiB
Markdown
---
|
|
title: Artur Hyrenko
|
|
published: true
|
|
taxonomy:
|
|
category: [dp2026]
|
|
tag: [chatbot,rasa,dialog,nlp]
|
|
author: Daniel Hladek
|
|
---
|
|
|
|
|
|
rok začiatku štúdia: 2021
|
|
|
|
# Diplomová práca 2026
|
|
|
|
Vyhodnotenie jazykových modelov
|
|
|
|
(pre bezpečnostné problémy)
|
|
|
|
Možné ciele:
|
|
|
|
- Zistiť, či sú súčasné jazyové modely bezpečné. Aké problémy obsahujú? Menia bezpečnostné vlastnosti na základe jazyka?
|
|
- Vyhodnotiť viacero jazykových modelov vo viacerých jazykoch.
|
|
- Navrhnúť zlepšenia na zvýšenie bezpečnosti.
|
|
|
|
Stretnutie 11.6. :
|
|
|
|
- Štúdium a vyskúšanie Python, Anaconda Transformers
|
|
- Písomné poznámky.
|
|
- Zistil, že ChatGPT dokáže poradiť s útokom na AP alebo na iný server. Netreba to (model) veľa presviedčať.
|
|
|
|
Úlohy:
|
|
|
|
- Pokračujte v praktickej príprave - Transformers
|
|
- Vyskúšajte a naštudujte Huggingface TRL. Ako sa dá v modeloch potlačiť toxické správanie? Zistite čo je to RLHF.
|
|
- Zistite, ako sa vyhodnocujú všeobecné jazykové modely.
|
|
- Preštudujte si [prácu](https://dspace.cvut.cz/bitstream/handle/10467/115227/F3-DP-2024-Jirkovsky-Adam-DP-final.pdf?sequence=-1&isAllowed=y) a [článok](https://arxiv.org/abs/2412.01020)/
|
|
- Vyhľadajte a preskúmajte existujúce dátové sady nebezpečných promptov. "corpus of dangerous-harmful prompts".
|
|
- Zistite, ako sa vyhodnocujú modely z hľadiska bezpečnosti. Aké škody môžu spôsobiť jazykové modely? Napíšte poznámnky.
|
|
|
|
Zásobník úloh:
|
|
|
|
- Rozšírte a preložte nebezpečné prompty. Aby sme dostali viacjazyčnú sadu (Slovensko-Anglicko-Ruská-Ukrajinská).
|
|
- Pomocu tejto sady vyhodnoťte viacero jazykových modelov.
|
|
- Implementujte vlastnú metódu na zvýšenie bezpečnosti modelu.
|
|
|
|
|
|
Stretnutie 4.4.2025
|
|
|
|
Stav:
|
|
|
|
- Preštudované niektoré jazykové modely.
|
|
|
|
Úlohy:
|
|
|
|
- [x] Pokračujte v štúdiu Python, Anaconda, Transformers, dive into deep learning.
|
|
- [x] Napíšte poznámky o tom ako funguje model typu GPT, napr. LLAMA alebo DeepSeek. Napíšte ako sa trénuje - čo na to potrebujeme a v akých fázach to prebieha. Napíšte aj odkazy na odbornú literatúru.
|
|
- [x] Zisite ako prebieha dotrénovanie pomocou PEFT-LORA a napíšte o tom poznáky,
|
|
- [x] Zistite ako prebieha dotrénovanie typu reinforcement learning a napíšte o tom poznámky.
|
|
|
|
Zásobník úloh:
|
|
|
|
- Môžeme riešiť problém bezpečnosti jazykových modelov. Ako upraviť model tak, aby neprezradil citlivé alebo nebezpečné informácie.
|
|
- Dotrénujme existujúci jazykový model (napr. SlovakMistral) na úlohu instruct a využime reinforcement learning na potlačenie neželaných vlastností.
|
|
|
|
|
|
Stretnutie 28.2.2025
|
|
|
|
Stav:
|
|
|
|
- Vyskúšané LM (cez ollama, aj API) Python (in progress).
|
|
|
|
|
|
Úlohy:
|
|
|
|
- Pokračujte v štúdiu.
|
|
- Pozrite sa na článok a dataset https://github.com/kinit-sk/gest . Urobte si poznámky. Zistite aké jazykové modely majú podporu slovenského jazyka. Zistite ako sa vyhodnocuje bias v jazykových modelov. Zistite, aké podobné množiny existujú pre iné jazyky.
|
|
|
|
Zásobník úloh:
|
|
|
|
- Porovnajte viaceré modely pre mieru výskyt rodových stereotypov. Môže byť aj pre viaceré jazyky (slovenčina, angličtina, ruština).
|
|
- Zistitie, ako je možné potlačiť neželané vlastnosti modelu. (https://huggingface.co/docs/trl/en/index, https://github.com/allenai/open-instruct).
|
|
|
|
Stretnutie 5.2.2025
|
|
|
|
Úlohy:
|
|
|
|
- Oboznámte sa s problematikou veľkých jazykových modelov. Towards Data Science
|
|
- Naučte sa Python lepšie
|
|
- Poučte sa o strojovom účení.
|
|
- Vyskúšajte si framework HF Transformers
|
|
- Vyskúšajte si veľký jazykový model, napr. cez systém OLLAMA.
|
|
- Oboznámte sa s frameworkom lm-eval-harness. Zistite, aké úlohy a aké metriky sa používajú.
|
|
|
|
Zásobník úloh:
|
|
|
|
- Nájdite na webe zaujímavý zdroj otázok a odpovedí, ktorý by bol vhodný na vyhodnotneie jazykového modelu.
|
|
- Vyberte úlohu vhodnú na anotáciu (spolu s vedúcim).
|
|
|
|
|
|
|
|
|