Update pages/students/2021/artur_hyrenko/README.md
This commit is contained in:
parent
73853bcd94
commit
3f6a9571b0
@ -14,6 +14,8 @@ rok začiatku štúdia: 2021
|
|||||||
|
|
||||||
Vyhodnotenie jazykových modelov
|
Vyhodnotenie jazykových modelov
|
||||||
|
|
||||||
|
https://git.kemt.fei.tuke.sk/ah866cw/DP
|
||||||
|
|
||||||
(pre bezpečnostné problémy)
|
(pre bezpečnostné problémy)
|
||||||
|
|
||||||
Možné ciele:
|
Možné ciele:
|
||||||
@ -29,6 +31,16 @@ Stav:
|
|||||||
- Preskúmané metriky: Unsafe rate, severity, toxicity, overrefusal, jailbreak. Vyžadujú si model alebo človeka.
|
- Preskúmané metriky: Unsafe rate, severity, toxicity, overrefusal, jailbreak. Vyžadujú si model alebo človeka.
|
||||||
- Datasety: "LibrAI/do-not-answer","walledai/HarmBench","allenai/real-toxicity-prompts","toxigen/toxigen-data", "AlignmentResearch/AdvBench".
|
- Datasety: "LibrAI/do-not-answer","walledai/HarmBench","allenai/real-toxicity-prompts","toxigen/toxigen-data", "AlignmentResearch/AdvBench".
|
||||||
- LLamaGuard3 je model pre detekciu nebezpečných promptov.
|
- LLamaGuard3 je model pre detekciu nebezpečných promptov.
|
||||||
|
- Sú vyhodnotené modely LLama, Qwen, Gemma.
|
||||||
|
|
||||||
|
Úlohy:
|
||||||
|
|
||||||
|
- Skúste zlepšiť bezpečnosť ľubovoľného modelu pomocu zarovnania DPO alebo iné. Skript dajte na git. Na trénovanie a vyhodnotenie je potrebné použiť iné dáta.
|
||||||
|
- Pokračujte v písaní - metriky, modely, spôsob zarovnania. Opíšte experimenty - porovnanie modelov, dotrénovnaie modelov. Citujte články z Google Scholar.
|
||||||
|
|
||||||
|
Zásobník úloh:
|
||||||
|
|
||||||
|
- Vyhodnotte, zarovnajte a zlepšite Slovak Mistral, Slovak T5 large.
|
||||||
|
|
||||||
Stretnutie 3.11.2025
|
Stretnutie 3.11.2025
|
||||||
|
|
||||||
@ -41,10 +53,10 @@ Stav:
|
|||||||
|
|
||||||
- [x] Ako číselne vyhodnotiť "nebezpečnosť modelu"? Prečítajte si články. Aké sú metriky? Aké sú databázy?
|
- [x] Ako číselne vyhodnotiť "nebezpečnosť modelu"? Prečítajte si články. Aké sú metriky? Aké sú databázy?
|
||||||
- [x] Nájsť alebo natrénovať model pre detekciu nebezpečných promptov a nebezpečných odpovedí.
|
- [x] Nájsť alebo natrénovať model pre detekciu nebezpečných promptov a nebezpečných odpovedí.
|
||||||
- [x] Číselne porovnajte nebezpečnosť viacerých mdoelov. llama, gemma, qwen gpt-oss, Výsledky dajte do tabuľky.
|
- [x] Číselne porovnajte nebezpečnosť viacerých modelov. llama, gemma, qwen gpt-oss, Výsledky dajte do tabuľky.
|
||||||
- Vybrať vhodný model pre potlačenie nebezpečných odpovedí pomocou DPO. Ako hodnotenie poslúži datababáza nebezpečných promptov, alebo iný model alebo aj náhodná hodnota.
|
- [x] Vybrať vhodný model pre potlačenie nebezpečných odpovedí pomocou DPO. Ako hodnotenie poslúži datababáza nebezpečných promptov, alebo iný model alebo aj náhodná hodnota.
|
||||||
- Skripty dávajte na GIT.
|
- [x] Skripty dávajte na GIT.
|
||||||
- Pokračujte v písaní.
|
- [x] Pokračujte v písaní.
|
||||||
|
|
||||||
Zásobník úloh:
|
Zásobník úloh:
|
||||||
|
|
||||||
|
|||||||
Loading…
Reference in New Issue
Block a user