From 5f7353564f44d00fdbfc71d19d4c3cf356065fd2 Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Mon, 3 Nov 2025 09:57:46 +0100 Subject: [PATCH] zz --- pages/students/2021/artur_hyrenko/README.md | 31 +++++++++++++++++---- 1 file changed, 26 insertions(+), 5 deletions(-) diff --git a/pages/students/2021/artur_hyrenko/README.md b/pages/students/2021/artur_hyrenko/README.md index 5e87ea51..88f83f04 100644 --- a/pages/students/2021/artur_hyrenko/README.md +++ b/pages/students/2021/artur_hyrenko/README.md @@ -22,6 +22,27 @@ Možné ciele: - Vyhodnotiť viacero jazykových modelov vo viacerých jazykoch. - Navrhnúť zlepšenia na zvýšenie bezpečnosti. +Stretnutie 3.11.2025 + +Stav: + +- Vyskúšané modely (mistral, openchat) pre generovanie nebezpečných odpovedí a pre detekciu nebezpečných promptov. +- Splnená väčšina otvorených úloh. + +Úlohy: + +- Ako číselne vyhodnotiť "nebezpečnosť modelu"? Prečítajte si články. Aké sú metriky? Aké sú databázy? +- Nájsť alebo natrénovať model pre detekciu nebezpečných promptov a nebezpečných odpovedí. +- Číselne porovnajte nebezpečnosť viacerých mdoelov. llama, gemma, qwen gpt-oss, Výsledky dajte do tabuľky. +- Vybrať vhodný model pre potlačenie nebezpečných odpovedí pomocou DPO. Ako hodnotenie poslúži datababáza nebezpečných promptov, alebo iný model alebo aj náhodná hodnota. +- Skripty dávajte na GIT. +- Pokračujte v písaní. + +Zásobník úloh: + +- Zarovnajte ľubovoľný model zvolenou metódou. +- Pripravte postup pre zarovnanie slovenského modelu. + Stretnutie 10.10.2025: Stav: @@ -36,11 +57,11 @@ Preštudované: Úlohy: -- pozrite si databázy PKU-Alignment/PKU-SafeRLHF alebo aurora-m/adversarial-prompts . Vyhľadajte iné databázy. -- Vyskúšajte LLM s týmito databázami. Ako sa bydú správať? -- Oboznámte sa s pojmom LLM alignment. Ako upravíme správanie jazykového modelu pomocou reinformcement learning? -- Používajte google scholar a píšte si poznámky. -- Pokračujte v otvorených úlohách - DPO. +- [x] pozrite si databázy PKU-Alignment/PKU-SafeRLHF alebo aurora-m/adversarial-prompts . Vyhľadajte iné databázy. +- [x] Vyskúšajte LLM s týmito databázami. Ako sa bydú správať? +- [x] Oboznámte sa s pojmom LLM alignment. Ako upravíme správanie jazykového modelu pomocou reinformcement learning? +- [ ] Používajte google scholar a píšte si poznámky. +- [-] Pokračujte v otvorených úlohách - DPO. Zásobník úloh: