165 lines
		
	
	
		
			6.4 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			165 lines
		
	
	
		
			6.4 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
---
 | 
						|
title: Artur Hyrenko
 | 
						|
published: true
 | 
						|
taxonomy:
 | 
						|
    category: [dp2026]
 | 
						|
    tag: [chatbot,rasa,dialog,nlp]
 | 
						|
    author: Daniel Hladek
 | 
						|
---
 | 
						|
 | 
						|
 | 
						|
rok začiatku štúdia: 2021
 | 
						|
 | 
						|
# Diplomová práca 2026
 | 
						|
 | 
						|
Vyhodnotenie jazykových modelov
 | 
						|
 | 
						|
(pre bezpečnostné problémy)
 | 
						|
 | 
						|
Možné ciele:
 | 
						|
 | 
						|
- Zistiť, či sú súčasné jazykové modely bezpečné. Aké problémy obsahujú? Menia bezpečnostné vlastnosti na základe jazyka?
 | 
						|
- Vyhodnotiť viacero jazykových modelov vo viacerých jazykoch.
 | 
						|
- Navrhnúť zlepšenia na zvýšenie bezpečnosti.
 | 
						|
 | 
						|
Stretnutie 3.11.2025
 | 
						|
 | 
						|
Stav:
 | 
						|
 | 
						|
- Vyskúšané modely (mistral, openchat) pre generovanie nebezpečných odpovedí a pre detekciu nebezpečných promptov.
 | 
						|
- Splnená väčšina otvorených úloh.
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Ako číselne vyhodnotiť "nebezpečnosť modelu"? Prečítajte si články. Aké sú metriky? Aké sú databázy?
 | 
						|
- Nájsť alebo natrénovať model pre detekciu nebezpečných promptov a nebezpečných odpovedí. 
 | 
						|
- Číselne porovnajte nebezpečnosť viacerých mdoelov.  llama, gemma, qwen gpt-oss, Výsledky dajte do tabuľky.
 | 
						|
- Vybrať vhodný model pre potlačenie nebezpečných odpovedí pomocou DPO. Ako hodnotenie poslúži datababáza nebezpečných promptov, alebo iný model alebo aj náhodná hodnota.
 | 
						|
- Skripty dávajte na GIT.
 | 
						|
- Pokračujte v písaní.
 | 
						|
 | 
						|
Zásobník úloh:
 | 
						|
 | 
						|
- Zarovnajte ľubovoľný model zvolenou metódou.
 | 
						|
- Pripravte postup pre zarovnanie slovenského modelu.
 | 
						|
 | 
						|
Stretnutie 10.10.2025:
 | 
						|
 | 
						|
Stav:
 | 
						|
 | 
						|
Preštudované:
 | 
						|
 | 
						|
- https://github.com/EleutherAI/lm-evaluation-harness?utm_source=chatgpt.com
 | 
						|
- https://github.com/confident-ai/deepeval?utm_source=chatgpt.com
 | 
						|
- https://github.com/open-compass/opencompass?utm_source=chatgpt.com
 | 
						|
- https://github.com/explodinggradients/ragas?utm_source=chatgpt.com
 | 
						|
- https://github.com/braintrustdata/autoevals?utm_source=chatgpt.com
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- [x] pozrite si databázy PKU-Alignment/PKU-SafeRLHF alebo aurora-m/adversarial-prompts . Vyhľadajte iné databázy.
 | 
						|
- [x] Vyskúšajte LLM s týmito databázami. Ako sa bydú správať?
 | 
						|
- [x] Oboznámte sa s pojmom LLM alignment. Ako upravíme správanie jazykového modelu pomocou reinformcement learning?
 | 
						|
- [ ] Používajte google scholar a píšte si poznámky.
 | 
						|
- [-] Pokračujte v otvorených úlohách - DPO.
 | 
						|
 | 
						|
Zásobník úloh:
 | 
						|
 | 
						|
- Vybrať metódy, vybrať databázu a vybrať model. Databázu vieme aj generovať - augmentovať.  Alebo ju vieme ručne upraviť. 
 | 
						|
- Niektorú databázu viem aj preložiť. Prístup vieme použiť aj na nový jazykový model slovak-t5-large.
 | 
						|
- Ako sa správajú modely v rôznych jazykoch?
 | 
						|
- vyhodnotiť model z hľadiska bezpečnosti.
 | 
						|
- upraviť správanie modelu tak aby sa zlepšilo.
 | 
						|
 | 
						|
Stretnutie 2.10. :
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Pokračujte v otvorených úlohách. Kľúčové slovíčka: Python, TRL , LLM.
 | 
						|
- Zistite čo je to Reinforcement Learning, RLHF, DPO, PEFT.
 | 
						|
- Vyskúšajte si voľne dostupné LLM pomocou ollama. gpt-oss, gemma, qwen.
 | 
						|
- Pozrite si databázy "nebezpečných promptov". Prečítajte si články. Pozrite si, aké články ich citujú. Použite google scholar.
 | 
						|
 | 
						|
Zásobník úloh:
 | 
						|
 | 
						|
- Zopakujte a vylepšite experimenty vo vybranom článku.
 | 
						|
- Finalizovať zadanie diplomovej práce.
 | 
						|
 | 
						|
Stretnutie 11.6. :
 | 
						|
 | 
						|
- Štúdium a vyskúšanie Python, Anaconda Transformers
 | 
						|
- Písomné poznámky.
 | 
						|
- Zistil, že ChatGPT dokáže poradiť s útokom na AP alebo na iný server. Netreba to (model) veľa presviedčať.
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Pokračujte v praktickej príprave - Transformers 
 | 
						|
- Vyskúšajte a naštudujte Huggingface TRL. Ako sa dá v modeloch potlačiť toxické správanie? Zistite čo je to RLHF.
 | 
						|
- Zistite, ako sa vyhodnocujú všeobecné jazykové modely.
 | 
						|
- Preštudujte si [prácu](https://dspace.cvut.cz/bitstream/handle/10467/115227/F3-DP-2024-Jirkovsky-Adam-DP-final.pdf?sequence=-1&isAllowed=y) a [článok](https://arxiv.org/abs/2412.01020)/
 | 
						|
- Vyhľadajte a preskúmajte existujúce dátové sady nebezpečných promptov. "corpus of dangerous-harmful prompts".
 | 
						|
- Zistite, ako sa vyhodnocujú modely z hľadiska bezpečnosti. Aké škody môžu spôsobiť jazykové modely? Napíšte poznámnky.
 | 
						|
 | 
						|
Zásobník úloh:
 | 
						|
 | 
						|
- Rozšírte a preložte nebezpečné prompty. Aby sme dostali viacjazyčnú sadu (Slovensko-Anglicko-Ruská-Ukrajinská).
 | 
						|
- Pomocu tejto sady vyhodnoťte viacero jazykových modelov.
 | 
						|
- Implementujte vlastnú metódu na zvýšenie bezpečnosti modelu. 
 | 
						|
 | 
						|
 | 
						|
Stretnutie 4.4.2025
 | 
						|
 | 
						|
Stav:
 | 
						|
 | 
						|
- Preštudované niektoré jazykové modely.
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- [x] Pokračujte v štúdiu Python, Anaconda, Transformers, dive into deep learning.
 | 
						|
- [x] Napíšte poznámky o tom ako funguje model typu GPT, napr. LLAMA alebo DeepSeek. Napíšte ako sa trénuje - čo na to potrebujeme a v akých fázach to prebieha. Napíšte aj odkazy na odbornú literatúru.
 | 
						|
- [x] Zisite ako prebieha dotrénovanie pomocou PEFT-LORA a napíšte o tom poznáky,
 | 
						|
- [x] Zistite ako prebieha dotrénovanie typu reinforcement learning a napíšte o tom poznámky.
 | 
						|
 | 
						|
Zásobník úloh:
 | 
						|
 | 
						|
- Môžeme riešiť problém bezpečnosti jazykových modelov. Ako upraviť model tak, aby neprezradil citlivé alebo nebezpečné informácie.
 | 
						|
- Dotrénujme existujúci jazykový model (napr. SlovakMistral) na úlohu instruct a využime reinforcement learning na potlačenie neželaných vlastností.
 | 
						|
 | 
						|
 | 
						|
Stretnutie 28.2.2025
 | 
						|
 | 
						|
Stav:
 | 
						|
 | 
						|
- Vyskúšané LM (cez ollama, aj API) Python (in progress).
 | 
						|
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Pokračujte v štúdiu.
 | 
						|
- Pozrite sa na článok a dataset https://github.com/kinit-sk/gest . Urobte si poznámky. Zistite aké jazykové modely majú podporu slovenského jazyka. Zistite ako sa vyhodnocuje bias v jazykových modelov. Zistite, aké podobné množiny existujú pre iné jazyky. 
 | 
						|
 | 
						|
Zásobník úloh:
 | 
						|
 | 
						|
- Porovnajte viaceré modely pre mieru výskyt rodových stereotypov. Môže byť aj pre viaceré jazyky (slovenčina, angličtina, ruština).
 | 
						|
- Zistitie, ako je možné potlačiť neželané vlastnosti modelu. (https://huggingface.co/docs/trl/en/index, https://github.com/allenai/open-instruct).
 | 
						|
 | 
						|
Stretnutie 5.2.2025
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Oboznámte sa s problematikou veľkých jazykových modelov. Towards Data Science
 | 
						|
- Naučte sa Python lepšie
 | 
						|
- Poučte sa o strojovom účení.
 | 
						|
- Vyskúšajte si framework HF Transformers
 | 
						|
- Vyskúšajte si veľký jazykový model, napr. cez systém OLLAMA.
 | 
						|
- Oboznámte sa s frameworkom lm-eval-harness. Zistite, aké úlohy a aké metriky sa používajú. 
 | 
						|
 | 
						|
Zásobník úloh:
 | 
						|
 | 
						|
- Nájdite na webe zaujímavý zdroj otázok a odpovedí, ktorý by bol vhodný na vyhodnotneie jazykového modelu.
 | 
						|
- Vyberte úlohu vhodnú na anotáciu (spolu s vedúcim).
 | 
						|
 | 
						|
 | 
						|
 | 
						|
 |