diff --git a/pages/students/2021/artur_hyrenko/README.md b/pages/students/2021/artur_hyrenko/README.md index 121ff97b..ddb2ebb7 100644 --- a/pages/students/2021/artur_hyrenko/README.md +++ b/pages/students/2021/artur_hyrenko/README.md @@ -14,6 +14,8 @@ rok začiatku štúdia: 2021 Vyhodnotenie jazykových modelov +https://git.kemt.fei.tuke.sk/ah866cw/DP + (pre bezpečnostné problémy) Možné ciele: @@ -29,6 +31,16 @@ Stav: - Preskúmané metriky: Unsafe rate, severity, toxicity, overrefusal, jailbreak. Vyžadujú si model alebo človeka. - Datasety: "LibrAI/do-not-answer","walledai/HarmBench","allenai/real-toxicity-prompts","toxigen/toxigen-data", "AlignmentResearch/AdvBench". - LLamaGuard3 je model pre detekciu nebezpečných promptov. +- Sú vyhodnotené modely LLama, Qwen, Gemma. + +Úlohy: + +- Skúste zlepšiť bezpečnosť ľubovoľného modelu pomocu zarovnania DPO alebo iné. Skript dajte na git. Na trénovanie a vyhodnotenie je potrebné použiť iné dáta. +- Pokračujte v písaní - metriky, modely, spôsob zarovnania. Opíšte experimenty - porovnanie modelov, dotrénovnaie modelov. Citujte články z Google Scholar. + +Zásobník úloh: + +- Vyhodnotte, zarovnajte a zlepšite Slovak Mistral, Slovak T5 large. Stretnutie 3.11.2025 @@ -41,10 +53,10 @@ Stav: - [x] Ako číselne vyhodnotiť "nebezpečnosť modelu"? Prečítajte si články. Aké sú metriky? Aké sú databázy? - [x] Nájsť alebo natrénovať model pre detekciu nebezpečných promptov a nebezpečných odpovedí. -- [x] Číselne porovnajte nebezpečnosť viacerých mdoelov. llama, gemma, qwen gpt-oss, Výsledky dajte do tabuľky. -- Vybrať vhodný model pre potlačenie nebezpečných odpovedí pomocou DPO. Ako hodnotenie poslúži datababáza nebezpečných promptov, alebo iný model alebo aj náhodná hodnota. -- Skripty dávajte na GIT. -- Pokračujte v písaní. +- [x] Číselne porovnajte nebezpečnosť viacerých modelov. llama, gemma, qwen gpt-oss, Výsledky dajte do tabuľky. +- [x] Vybrať vhodný model pre potlačenie nebezpečných odpovedí pomocou DPO. Ako hodnotenie poslúži datababáza nebezpečných promptov, alebo iný model alebo aj náhodná hodnota. +- [x] Skripty dávajte na GIT. +- [x] Pokračujte v písaní. Zásobník úloh: