zz

2025-11-03 09:57:46 +01:00 · 2025-11-03 09:57:46 +01:00 · 5f7353564f
commit 5f7353564f
parent 940bf96fcd
1 changed files with 26 additions and 5 deletions
--- a/pages/students/2021/artur_hyrenko/README.md
+++ b/pages/students/2021/artur_hyrenko/README.md
@ -22,6 +22,27 @@ Možné ciele:
 - Vyhodnotiť viacero jazykových modelov vo viacerých jazykoch.
 - Navrhnúť zlepšenia na zvýšenie bezpečnosti.
 Stretnutie 3.11.2025
 Stav:
 - Vyskúšané modely (mistral, openchat) pre generovanie nebezpečných odpovedí a pre detekciu nebezpečných promptov.
 - Splnená väčšina otvorených úloh.
 Úlohy:
 - Ako číselne vyhodnotiť "nebezpečnosť modelu"? Prečítajte si články. Aké sú metriky? Aké sú databázy?
 - Nájsť alebo natrénovať model pre detekciu nebezpečných promptov a nebezpečných odpovedí. 
 - Číselne porovnajte nebezpečnosť viacerých mdoelov.  llama, gemma, qwen gpt-oss, Výsledky dajte do tabuľky.
 - Vybrať vhodný model pre potlačenie nebezpečných odpovedí pomocou DPO. Ako hodnotenie poslúži datababáza nebezpečných promptov, alebo iný model alebo aj náhodná hodnota.
 - Skripty dávajte na GIT.
 - Pokračujte v písaní.
 Zásobník úloh:
 - Zarovnajte ľubovoľný model zvolenou metódou.
 - Pripravte postup pre zarovnanie slovenského modelu.
 Stretnutie 10.10.2025:
 Stav:
@ -36,11 +57,11 @@ Preštudované:
 Úlohy:
- pozrite si databázy PKU-Alignment/PKU-SafeRLHF alebo aurora-m/adversarial-prompts . Vyhľadajte iné databázy.
+- [x] pozrite si databázy PKU-Alignment/PKU-SafeRLHF alebo aurora-m/adversarial-prompts . Vyhľadajte iné databázy.
- Vyskúšajte LLM s týmito databázami. Ako sa bydú správať?
+- [x] Vyskúšajte LLM s týmito databázami. Ako sa bydú správať?
- Oboznámte sa s pojmom LLM alignment. Ako upravíme správanie jazykového modelu pomocou reinformcement learning?
+- [x] Oboznámte sa s pojmom LLM alignment. Ako upravíme správanie jazykového modelu pomocou reinformcement learning?
- Používajte google scholar a píšte si poznámky.
+- [ ] Používajte google scholar a píšte si poznámky.
- Pokračujte v otvorených úlohách - DPO.
+- [-] Pokračujte v otvorených úlohách - DPO.
 Zásobník úloh: