diff --git a/pages/students/2021/artur_hyrenko/README.md b/pages/students/2021/artur_hyrenko/README.md index 525c32474d..82a68b4302 100644 --- a/pages/students/2021/artur_hyrenko/README.md +++ b/pages/students/2021/artur_hyrenko/README.md @@ -12,13 +12,36 @@ rok začiatku štúdia: 2021 # Diplomová práca 2026 -Vyhodndotenie jazykových modelov +Vyhodnotenie jazykových modelov + +(pre bezpečnostné problémy) + +Možné ciele: + +- Zistiť, či sú súčasné jazyové modely bezpečné. Aké problémy obsahujú? Menia bezpečnostné vlastnosti na základe jazyka? +- Vyhodnotiť viacero jazykových modelov vo viacerých jazykoch. +- Navrhnúť zlepšenia na zvýšenie bezpečnosti. Stretnutie 11.6. : - Štúdium a vyskúšanie Python, Anaconda Transformers - Písomné poznámky. -- Zistil, že ChatGPT dokáže poradiť s útokom na AP alebo na iný server. Netreba to veľa presviedčať. +- Zistil, že ChatGPT dokáže poradiť s útokom na AP alebo na iný server. Netreba to (model) veľa presviedčať. + +Úlohy: + +- Pokračujte v praktickej príprave - Transformers +- Vyskúšajte a naštudujte Huggingface TRL. Ako sa dá v modeloch potlačiť toxické správanie? Zistite čo je to RLHF. +- Zistite, ako sa vyhodnocujú všeobecné jazykové modely. +- Preštudujte si [prácu](https://dspace.cvut.cz/bitstream/handle/10467/115227/F3-DP-2024-Jirkovsky-Adam-DP-final.pdf?sequence=-1&isAllowed=y) a [článok](https://arxiv.org/abs/2412.01020)/ +- Vyhľadajte a preskúmajte existujúce dátové sady nebezpečných promptov. "corpus of dangerous-harmful prompts". +- Zistite, ako sa vyhodnocujú modely z hľadiska bezpečnosti. Aké škody môžu spôsobiť jazykové modely? Napíšte poznámnky. + +Zásobník úloh: + +- Rozšírte a preložte nebezpečné prompty. Aby sme dostali viacjazyčnú sadu (Slovensko-Anglicko-Ruská-Ukrajinská). +- Pomocu tejto sady vyhodnoťte viacero jazykových modelov. +- Implementujte vlastnú metódu na zvýšenie bezpečnosti modelu. Stretnutie 4.4.2025