From 73853bcd94d3987a724be084fcf562c4641ab1b6 Mon Sep 17 00:00:00 2001 From: dano Date: Tue, 18 Nov 2025 08:36:25 +0000 Subject: [PATCH] Update pages/students/2021/artur_hyrenko/README.md --- pages/students/2021/artur_hyrenko/README.md | 14 +++++++++++--- 1 file changed, 11 insertions(+), 3 deletions(-) diff --git a/pages/students/2021/artur_hyrenko/README.md b/pages/students/2021/artur_hyrenko/README.md index 88f83f04d0..121ff97b77 100644 --- a/pages/students/2021/artur_hyrenko/README.md +++ b/pages/students/2021/artur_hyrenko/README.md @@ -22,6 +22,14 @@ Možné ciele: - Vyhodnotiť viacero jazykových modelov vo viacerých jazykoch. - Navrhnúť zlepšenia na zvýšenie bezpečnosti. +Stretnutie 18.11.2025 + +Stav: + +- Preskúmané metriky: Unsafe rate, severity, toxicity, overrefusal, jailbreak. Vyžadujú si model alebo človeka. +- Datasety: "LibrAI/do-not-answer","walledai/HarmBench","allenai/real-toxicity-prompts","toxigen/toxigen-data", "AlignmentResearch/AdvBench". +- LLamaGuard3 je model pre detekciu nebezpečných promptov. + Stretnutie 3.11.2025 Stav: @@ -31,9 +39,9 @@ Stav: Úlohy: -- Ako číselne vyhodnotiť "nebezpečnosť modelu"? Prečítajte si články. Aké sú metriky? Aké sú databázy? -- Nájsť alebo natrénovať model pre detekciu nebezpečných promptov a nebezpečných odpovedí. -- Číselne porovnajte nebezpečnosť viacerých mdoelov. llama, gemma, qwen gpt-oss, Výsledky dajte do tabuľky. +- [x] Ako číselne vyhodnotiť "nebezpečnosť modelu"? Prečítajte si články. Aké sú metriky? Aké sú databázy? +- [x] Nájsť alebo natrénovať model pre detekciu nebezpečných promptov a nebezpečných odpovedí. +- [x] Číselne porovnajte nebezpečnosť viacerých mdoelov. llama, gemma, qwen gpt-oss, Výsledky dajte do tabuľky. - Vybrať vhodný model pre potlačenie nebezpečných odpovedí pomocou DPO. Ako hodnotenie poslúži datababáza nebezpečných promptov, alebo iný model alebo aj náhodná hodnota. - Skripty dávajte na GIT. - Pokračujte v písaní.