diff --git a/pages/students/2023/simona_bobrovcanova/README.md b/pages/students/2023/simona_bobrovcanova/README.md index de2f08d5..6cd7a543 100644 --- a/pages/students/2023/simona_bobrovcanova/README.md +++ b/pages/students/2023/simona_bobrovcanova/README.md @@ -22,6 +22,35 @@ Ciele: Zlepšite spracovanie slovenkých právnych textov - vytvorte systém pre sumarizáciu rozsudkov alebo iných právnych dokumentov. +Stretnutie 6.10.2025 + +Stav: + +- Preštudované deep learning +- Framework HF Transformers +- Trénovanie sumarizácie pomocou LORA v Anaconda, 4 bit kvanitizácia - llama, mt5-base, mt5 na 6GB RAM + +Úlohy: + +- Pozrite sa na google scholar, prečítajte si najnovšie články o sumarizácii súdnych textov a urobte si poznámky. +- Napíšte o procese dotrénovania jazykového modelu - supervised finetuning, PEFT-LORA podľa vedeckých článkov. +- Vytvoreny pristup bobrovcanova@titan.kemt.fei.tuke.sk. +- Dáta sú v /mnt/sharedhome/hladek/corpora/prokuraturadb/ +- Pripravte si trénovacie a testovacie dáta, zatiaľ bez deanonymizácie a bez prípravy. +- Natrénujte a vyhodnotte model pre generovanie poučenia na (základe rozhodnutie a-alebo odôvodnenia). +- "Objektívne" vyhodnotenie je pomocou metriky ROUGE alebo BLEU. +- Vyskúšajte modely: slovak-mistral 7B., Qwen3 , Gemma, Slovak-t5-base +- skripty dajte na kemt git. + +Zásobník úloh: + +- Vyhodnotenie presnosti pomocou LLM +- Lepšie predspracovanie textu +- Generovanie rozhodnutia z odôvodnenia. +- sumarizácia zero shot, napr. pomocou gpt-oss + + + Stretnutie 3.4. Úlohy: