--- title: Artur Hyrenko published: true taxonomy: category: [dp2026] tag: [chatbot,rasa,dialog,nlp] author: Daniel Hladek --- rok začiatku štúdia: 2021 # Diplomová práca 2026 Vyhodnotenie jazykových modelov (pre bezpečnostné problémy) Možné ciele: - Zistiť, či sú súčasné jazyové modely bezpečné. Aké problémy obsahujú? Menia bezpečnostné vlastnosti na základe jazyka? - Vyhodnotiť viacero jazykových modelov vo viacerých jazykoch. - Navrhnúť zlepšenia na zvýšenie bezpečnosti. Stretnutie 11.6. : - Štúdium a vyskúšanie Python, Anaconda Transformers - Písomné poznámky. - Zistil, že ChatGPT dokáže poradiť s útokom na AP alebo na iný server. Netreba to (model) veľa presviedčať. Úlohy: - Pokračujte v praktickej príprave - Transformers - Vyskúšajte a naštudujte Huggingface TRL. Ako sa dá v modeloch potlačiť toxické správanie? Zistite čo je to RLHF. - Zistite, ako sa vyhodnocujú všeobecné jazykové modely. - Preštudujte si [prácu](https://dspace.cvut.cz/bitstream/handle/10467/115227/F3-DP-2024-Jirkovsky-Adam-DP-final.pdf?sequence=-1&isAllowed=y) a [článok](https://arxiv.org/abs/2412.01020)/ - Vyhľadajte a preskúmajte existujúce dátové sady nebezpečných promptov. "corpus of dangerous-harmful prompts". - Zistite, ako sa vyhodnocujú modely z hľadiska bezpečnosti. Aké škody môžu spôsobiť jazykové modely? Napíšte poznámnky. Zásobník úloh: - Rozšírte a preložte nebezpečné prompty. Aby sme dostali viacjazyčnú sadu (Slovensko-Anglicko-Ruská-Ukrajinská). - Pomocu tejto sady vyhodnoťte viacero jazykových modelov. - Implementujte vlastnú metódu na zvýšenie bezpečnosti modelu. Stretnutie 4.4.2025 Stav: - Preštudované niektoré jazykové modely. Úlohy: - [x] Pokračujte v štúdiu Python, Anaconda, Transformers, dive into deep learning. - [x] Napíšte poznámky o tom ako funguje model typu GPT, napr. LLAMA alebo DeepSeek. Napíšte ako sa trénuje - čo na to potrebujeme a v akých fázach to prebieha. Napíšte aj odkazy na odbornú literatúru. - [x] Zisite ako prebieha dotrénovanie pomocou PEFT-LORA a napíšte o tom poznáky, - [x] Zistite ako prebieha dotrénovanie typu reinforcement learning a napíšte o tom poznámky. Zásobník úloh: - Môžeme riešiť problém bezpečnosti jazykových modelov. Ako upraviť model tak, aby neprezradil citlivé alebo nebezpečné informácie. - Dotrénujme existujúci jazykový model (napr. SlovakMistral) na úlohu instruct a využime reinforcement learning na potlačenie neželaných vlastností. Stretnutie 28.2.2025 Stav: - Vyskúšané LM (cez ollama, aj API) Python (in progress). Úlohy: - Pokračujte v štúdiu. - Pozrite sa na článok a dataset https://github.com/kinit-sk/gest . Urobte si poznámky. Zistite aké jazykové modely majú podporu slovenského jazyka. Zistite ako sa vyhodnocuje bias v jazykových modelov. Zistite, aké podobné množiny existujú pre iné jazyky. Zásobník úloh: - Porovnajte viaceré modely pre mieru výskyt rodových stereotypov. Môže byť aj pre viaceré jazyky (slovenčina, angličtina, ruština). - Zistitie, ako je možné potlačiť neželané vlastnosti modelu. (https://huggingface.co/docs/trl/en/index, https://github.com/allenai/open-instruct). Stretnutie 5.2.2025 Úlohy: - Oboznámte sa s problematikou veľkých jazykových modelov. Towards Data Science - Naučte sa Python lepšie - Poučte sa o strojovom účení. - Vyskúšajte si framework HF Transformers - Vyskúšajte si veľký jazykový model, napr. cez systém OLLAMA. - Oboznámte sa s frameworkom lm-eval-harness. Zistite, aké úlohy a aké metriky sa používajú. Zásobník úloh: - Nájdite na webe zaujímavý zdroj otázok a odpovedí, ktorý by bol vhodný na vyhodnotneie jazykového modelu. - Vyberte úlohu vhodnú na anotáciu (spolu s vedúcim).