Update pages/students/2021/artur_hyrenko/README.md

2025-11-18 08:46:45 +00:00 · 2025-11-18 08:46:45 +00:00 · 3f6a9571b0
commit 3f6a9571b0
parent 73853bcd94
1 changed files with 16 additions and 4 deletions
--- a/pages/students/2021/artur_hyrenko/README.md
+++ b/pages/students/2021/artur_hyrenko/README.md
@ -14,6 +14,8 @@ rok začiatku štúdia: 2021

 Vyhodnotenie jazykových modelov

+https://git.kemt.fei.tuke.sk/ah866cw/DP
+
 (pre bezpečnostné problémy)

 Možné ciele:
@ -29,6 +31,16 @@ Stav:
 - Preskúmané metriky: Unsafe rate, severity, toxicity, overrefusal, jailbreak. Vyžadujú si model alebo človeka.
 - Datasety: "LibrAI/do-not-answer","walledai/HarmBench","allenai/real-toxicity-prompts","toxigen/toxigen-data", "AlignmentResearch/AdvBench".
 - LLamaGuard3 je model pre detekciu nebezpečných promptov.
+- Sú vyhodnotené modely LLama, Qwen, Gemma.
+
+Úlohy:
+
+- Skúste zlepšiť bezpečnosť ľubovoľného modelu pomocu zarovnania DPO alebo iné. Skript dajte na git.  Na trénovanie a vyhodnotenie je potrebné použiť iné dáta.
+- Pokračujte v písaní - metriky, modely, spôsob zarovnania. Opíšte experimenty - porovnanie modelov, dotrénovnaie modelov. Citujte články z Google Scholar.
+
+Zásobník úloh:
+
+- Vyhodnotte, zarovnajte a zlepšite Slovak Mistral, Slovak T5 large.

 Stretnutie 3.11.2025

@ -41,10 +53,10 @@ Stav:

 - [x] Ako číselne vyhodnotiť "nebezpečnosť modelu"? Prečítajte si články. Aké sú metriky? Aké sú databázy?
 - [x] Nájsť alebo natrénovať model pre detekciu nebezpečných promptov a nebezpečných odpovedí. 
- [x] Číselne porovnajte nebezpečnosť viacerých mdoelov.  llama, gemma, qwen gpt-oss, Výsledky dajte do tabuľky.
- Vybrať vhodný model pre potlačenie nebezpečných odpovedí pomocou DPO. Ako hodnotenie poslúži datababáza nebezpečných promptov, alebo iný model alebo aj náhodná hodnota.
- Skripty dávajte na GIT.
- Pokračujte v písaní.
+- [x] Číselne porovnajte nebezpečnosť viacerých modelov.  llama, gemma, qwen gpt-oss, Výsledky dajte do tabuľky.
+- [x] Vybrať vhodný model pre potlačenie nebezpečných odpovedí pomocou DPO. Ako hodnotenie poslúži datababáza nebezpečných promptov, alebo iný model alebo aj náhodná hodnota.
+- [x] Skripty dávajte na GIT.
+- [x] Pokračujte v písaní.

 Zásobník úloh: