This commit is contained in:
Daniel Hládek 2025-11-03 09:57:46 +01:00
parent 940bf96fcd
commit 5f7353564f

View File

@ -22,6 +22,27 @@ Možné ciele:
- Vyhodnotiť viacero jazykových modelov vo viacerých jazykoch.
- Navrhnúť zlepšenia na zvýšenie bezpečnosti.
Stretnutie 3.11.2025
Stav:
- Vyskúšané modely (mistral, openchat) pre generovanie nebezpečných odpovedí a pre detekciu nebezpečných promptov.
- Splnená väčšina otvorených úloh.
Úlohy:
- Ako číselne vyhodnotiť "nebezpečnosť modelu"? Prečítajte si články. Aké sú metriky? Aké sú databázy?
- Nájsť alebo natrénovať model pre detekciu nebezpečných promptov a nebezpečných odpovedí.
- Číselne porovnajte nebezpečnosť viacerých mdoelov. llama, gemma, qwen gpt-oss, Výsledky dajte do tabuľky.
- Vybrať vhodný model pre potlačenie nebezpečných odpovedí pomocou DPO. Ako hodnotenie poslúži datababáza nebezpečných promptov, alebo iný model alebo aj náhodná hodnota.
- Skripty dávajte na GIT.
- Pokračujte v písaní.
Zásobník úloh:
- Zarovnajte ľubovoľný model zvolenou metódou.
- Pripravte postup pre zarovnanie slovenského modelu.
Stretnutie 10.10.2025:
Stav:
@ -36,11 +57,11 @@ Preštudované:
Úlohy:
- pozrite si databázy PKU-Alignment/PKU-SafeRLHF alebo aurora-m/adversarial-prompts . Vyhľadajte iné databázy.
- Vyskúšajte LLM s týmito databázami. Ako sa bydú správať?
- Oboznámte sa s pojmom LLM alignment. Ako upravíme správanie jazykového modelu pomocou reinformcement learning?
- Používajte google scholar a píšte si poznámky.
- Pokračujte v otvorených úlohách - DPO.
- [x] pozrite si databázy PKU-Alignment/PKU-SafeRLHF alebo aurora-m/adversarial-prompts . Vyhľadajte iné databázy.
- [x] Vyskúšajte LLM s týmito databázami. Ako sa bydú správať?
- [x] Oboznámte sa s pojmom LLM alignment. Ako upravíme správanie jazykového modelu pomocou reinformcement learning?
- [ ] Používajte google scholar a píšte si poznámky.
- [-] Pokračujte v otvorených úlohách - DPO.
Zásobník úloh: