Update pages/students/2021/artur_hyrenko/README.md

2025-11-18 08:36:25 +00:00 · 2025-11-18 08:36:25 +00:00 · 73853bcd94
commit 73853bcd94
parent 49a2977015
1 changed files with 11 additions and 3 deletions
--- a/pages/students/2021/artur_hyrenko/README.md
+++ b/pages/students/2021/artur_hyrenko/README.md
@ -22,6 +22,14 @@ Možné ciele:
 - Vyhodnotiť viacero jazykových modelov vo viacerých jazykoch.
 - Navrhnúť zlepšenia na zvýšenie bezpečnosti.
 Stretnutie 18.11.2025
 Stav:
 - Preskúmané metriky: Unsafe rate, severity, toxicity, overrefusal, jailbreak. Vyžadujú si model alebo človeka.
 - Datasety: "LibrAI/do-not-answer","walledai/HarmBench","allenai/real-toxicity-prompts","toxigen/toxigen-data", "AlignmentResearch/AdvBench".
 - LLamaGuard3 je model pre detekciu nebezpečných promptov.
 Stretnutie 3.11.2025
 Stav:
@ -31,9 +39,9 @@ Stav:
 Úlohy:
- Ako číselne vyhodnotiť "nebezpečnosť modelu"? Prečítajte si články. Aké sú metriky? Aké sú databázy?
+- [x] Ako číselne vyhodnotiť "nebezpečnosť modelu"? Prečítajte si články. Aké sú metriky? Aké sú databázy?
- Nájsť alebo natrénovať model pre detekciu nebezpečných promptov a nebezpečných odpovedí. 
+- [x] Nájsť alebo natrénovať model pre detekciu nebezpečných promptov a nebezpečných odpovedí. 
- Číselne porovnajte nebezpečnosť viacerých mdoelov.  llama, gemma, qwen gpt-oss, Výsledky dajte do tabuľky.
+- [x] Číselne porovnajte nebezpečnosť viacerých mdoelov.  llama, gemma, qwen gpt-oss, Výsledky dajte do tabuľky.
 - Vybrať vhodný model pre potlačenie nebezpečných odpovedí pomocou DPO. Ako hodnotenie poslúži datababáza nebezpečných promptov, alebo iný model alebo aj náhodná hodnota.
 - Skripty dávajte na GIT.
 - Pokračujte v písaní.