Update pages/students/2021/artur_hyrenko/README.md

This commit is contained in:
dano 2025-11-18 08:36:25 +00:00
parent 49a2977015
commit 73853bcd94

View File

@ -22,6 +22,14 @@ Možné ciele:
- Vyhodnotiť viacero jazykových modelov vo viacerých jazykoch. - Vyhodnotiť viacero jazykových modelov vo viacerých jazykoch.
- Navrhnúť zlepšenia na zvýšenie bezpečnosti. - Navrhnúť zlepšenia na zvýšenie bezpečnosti.
Stretnutie 18.11.2025
Stav:
- Preskúmané metriky: Unsafe rate, severity, toxicity, overrefusal, jailbreak. Vyžadujú si model alebo človeka.
- Datasety: "LibrAI/do-not-answer","walledai/HarmBench","allenai/real-toxicity-prompts","toxigen/toxigen-data", "AlignmentResearch/AdvBench".
- LLamaGuard3 je model pre detekciu nebezpečných promptov.
Stretnutie 3.11.2025 Stretnutie 3.11.2025
Stav: Stav:
@ -31,9 +39,9 @@ Stav:
Úlohy: Úlohy:
- Ako číselne vyhodnotiť "nebezpečnosť modelu"? Prečítajte si články. Aké sú metriky? Aké sú databázy? - [x] Ako číselne vyhodnotiť "nebezpečnosť modelu"? Prečítajte si články. Aké sú metriky? Aké sú databázy?
- Nájsť alebo natrénovať model pre detekciu nebezpečných promptov a nebezpečných odpovedí. - [x] Nájsť alebo natrénovať model pre detekciu nebezpečných promptov a nebezpečných odpovedí.
- Číselne porovnajte nebezpečnosť viacerých mdoelov. llama, gemma, qwen gpt-oss, Výsledky dajte do tabuľky. - [x] Číselne porovnajte nebezpečnosť viacerých mdoelov. llama, gemma, qwen gpt-oss, Výsledky dajte do tabuľky.
- Vybrať vhodný model pre potlačenie nebezpečných odpovedí pomocou DPO. Ako hodnotenie poslúži datababáza nebezpečných promptov, alebo iný model alebo aj náhodná hodnota. - Vybrať vhodný model pre potlačenie nebezpečných odpovedí pomocou DPO. Ako hodnotenie poslúži datababáza nebezpečných promptov, alebo iný model alebo aj náhodná hodnota.
- Skripty dávajte na GIT. - Skripty dávajte na GIT.
- Pokračujte v písaní. - Pokračujte v písaní.