zz
This commit is contained in:
parent
940bf96fcd
commit
5f7353564f
@ -22,6 +22,27 @@ Možné ciele:
|
||||
- Vyhodnotiť viacero jazykových modelov vo viacerých jazykoch.
|
||||
- Navrhnúť zlepšenia na zvýšenie bezpečnosti.
|
||||
|
||||
Stretnutie 3.11.2025
|
||||
|
||||
Stav:
|
||||
|
||||
- Vyskúšané modely (mistral, openchat) pre generovanie nebezpečných odpovedí a pre detekciu nebezpečných promptov.
|
||||
- Splnená väčšina otvorených úloh.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Ako číselne vyhodnotiť "nebezpečnosť modelu"? Prečítajte si články. Aké sú metriky? Aké sú databázy?
|
||||
- Nájsť alebo natrénovať model pre detekciu nebezpečných promptov a nebezpečných odpovedí.
|
||||
- Číselne porovnajte nebezpečnosť viacerých mdoelov. llama, gemma, qwen gpt-oss, Výsledky dajte do tabuľky.
|
||||
- Vybrať vhodný model pre potlačenie nebezpečných odpovedí pomocou DPO. Ako hodnotenie poslúži datababáza nebezpečných promptov, alebo iný model alebo aj náhodná hodnota.
|
||||
- Skripty dávajte na GIT.
|
||||
- Pokračujte v písaní.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Zarovnajte ľubovoľný model zvolenou metódou.
|
||||
- Pripravte postup pre zarovnanie slovenského modelu.
|
||||
|
||||
Stretnutie 10.10.2025:
|
||||
|
||||
Stav:
|
||||
@ -36,11 +57,11 @@ Preštudované:
|
||||
|
||||
Úlohy:
|
||||
|
||||
- pozrite si databázy PKU-Alignment/PKU-SafeRLHF alebo aurora-m/adversarial-prompts . Vyhľadajte iné databázy.
|
||||
- Vyskúšajte LLM s týmito databázami. Ako sa bydú správať?
|
||||
- Oboznámte sa s pojmom LLM alignment. Ako upravíme správanie jazykového modelu pomocou reinformcement learning?
|
||||
- Používajte google scholar a píšte si poznámky.
|
||||
- Pokračujte v otvorených úlohách - DPO.
|
||||
- [x] pozrite si databázy PKU-Alignment/PKU-SafeRLHF alebo aurora-m/adversarial-prompts . Vyhľadajte iné databázy.
|
||||
- [x] Vyskúšajte LLM s týmito databázami. Ako sa bydú správať?
|
||||
- [x] Oboznámte sa s pojmom LLM alignment. Ako upravíme správanie jazykového modelu pomocou reinformcement learning?
|
||||
- [ ] Používajte google scholar a píšte si poznámky.
|
||||
- [-] Pokračujte v otvorených úlohách - DPO.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
|
||||
Loading…
Reference in New Issue
Block a user