zz

2025-11-03 09:57:46 +01:00 · 2025-11-03 09:57:46 +01:00 · 5f7353564f
commit 5f7353564f
parent 940bf96fcd
1 changed files with 26 additions and 5 deletions
--- a/pages/students/2021/artur_hyrenko/README.md
+++ b/pages/students/2021/artur_hyrenko/README.md
@ -22,6 +22,27 @@ Možné ciele:
 - Vyhodnotiť viacero jazykových modelov vo viacerých jazykoch.
 - Navrhnúť zlepšenia na zvýšenie bezpečnosti.

+Stretnutie 3.11.2025
+
+Stav:
+
+- Vyskúšané modely (mistral, openchat) pre generovanie nebezpečných odpovedí a pre detekciu nebezpečných promptov.
+- Splnená väčšina otvorených úloh.
+
+Úlohy:
+
+- Ako číselne vyhodnotiť "nebezpečnosť modelu"? Prečítajte si články. Aké sú metriky? Aké sú databázy?
+- Nájsť alebo natrénovať model pre detekciu nebezpečných promptov a nebezpečných odpovedí. 
+- Číselne porovnajte nebezpečnosť viacerých mdoelov.  llama, gemma, qwen gpt-oss, Výsledky dajte do tabuľky.
+- Vybrať vhodný model pre potlačenie nebezpečných odpovedí pomocou DPO. Ako hodnotenie poslúži datababáza nebezpečných promptov, alebo iný model alebo aj náhodná hodnota.
+- Skripty dávajte na GIT.
+- Pokračujte v písaní.
+
+Zásobník úloh:
+
+- Zarovnajte ľubovoľný model zvolenou metódou.
+- Pripravte postup pre zarovnanie slovenského modelu.
+
 Stretnutie 10.10.2025:

 Stav:
@ -36,11 +57,11 @@ Preštudované:

 Úlohy:

- pozrite si databázy PKU-Alignment/PKU-SafeRLHF alebo aurora-m/adversarial-prompts . Vyhľadajte iné databázy.
- Vyskúšajte LLM s týmito databázami. Ako sa bydú správať?
- Oboznámte sa s pojmom LLM alignment. Ako upravíme správanie jazykového modelu pomocou reinformcement learning?
- Používajte google scholar a píšte si poznámky.
- Pokračujte v otvorených úlohách - DPO.
+- [x] pozrite si databázy PKU-Alignment/PKU-SafeRLHF alebo aurora-m/adversarial-prompts . Vyhľadajte iné databázy.
+- [x] Vyskúšajte LLM s týmito databázami. Ako sa bydú správať?
+- [x] Oboznámte sa s pojmom LLM alignment. Ako upravíme správanie jazykového modelu pomocou reinformcement learning?
+- [ ] Používajte google scholar a píšte si poznámky.
+- [-] Pokračujte v otvorených úlohách - DPO.

 Zásobník úloh: