Update pages/students/2021/artur_hyrenko/README.md

2025-06-11 13:21:22 +00:00 · 2025-06-11 13:21:22 +00:00 · 3402ee4778
commit 3402ee4778
parent 928f746115
1 changed files with 25 additions and 2 deletions
--- a/pages/students/2021/artur_hyrenko/README.md
+++ b/pages/students/2021/artur_hyrenko/README.md
@ -12,13 +12,36 @@ rok začiatku štúdia: 2021

 # Diplomová práca 2026

-Vyhodndotenie jazykových modelov
+Vyhodnotenie jazykových modelov
+
+(pre bezpečnostné problémy)
+
+Možné ciele:
+
+- Zistiť, či sú súčasné jazyové modely bezpečné. Aké problémy obsahujú? Menia bezpečnostné vlastnosti na základe jazyka?
+- Vyhodnotiť viacero jazykových modelov vo viacerých jazykoch.
+- Navrhnúť zlepšenia na zvýšenie bezpečnosti.

 Stretnutie 11.6. :

 - Štúdium a vyskúšanie Python, Anaconda Transformers
 - Písomné poznámky.
- Zistil, že ChatGPT dokáže poradiť s útokom na AP alebo na iný server. Netreba to veľa presviedčať.
+- Zistil, že ChatGPT dokáže poradiť s útokom na AP alebo na iný server. Netreba to (model) veľa presviedčať.
+
+Úlohy:
+
+- Pokračujte v praktickej príprave - Transformers 
+- Vyskúšajte a naštudujte Huggingface TRL. Ako sa dá v modeloch potlačiť toxické správanie? Zistite čo je to RLHF.
+- Zistite, ako sa vyhodnocujú všeobecné jazykové modely.
+- Preštudujte si [prácu](https://dspace.cvut.cz/bitstream/handle/10467/115227/F3-DP-2024-Jirkovsky-Adam-DP-final.pdf?sequence=-1&isAllowed=y) a [článok](https://arxiv.org/abs/2412.01020)/
+- Vyhľadajte a preskúmajte existujúce dátové sady nebezpečných promptov. "corpus of dangerous-harmful prompts".
+- Zistite, ako sa vyhodnocujú modely z hľadiska bezpečnosti. Aké škody môžu spôsobiť jazykové modely? Napíšte poznámnky.
+
+Zásobník úloh:
+
+- Rozšírte a preložte nebezpečné prompty. Aby sme dostali viacjazyčnú sadu (Slovensko-Anglicko-Ruská-Ukrajinská).
+- Pomocu tejto sady vyhodnoťte viacero jazykových modelov.
+- Implementujte vlastnú metódu na zvýšenie bezpečnosti modelu. 


 Stretnutie 4.4.2025