zz
This commit is contained in:
parent
5146aa1523
commit
e31cffd42c
@ -22,6 +22,35 @@ Ciele:
|
||||
|
||||
Zlepšite spracovanie slovenkých právnych textov - vytvorte systém pre sumarizáciu rozsudkov alebo iných právnych dokumentov.
|
||||
|
||||
Stretnutie 6.10.2025
|
||||
|
||||
Stav:
|
||||
|
||||
- Preštudované deep learning
|
||||
- Framework HF Transformers
|
||||
- Trénovanie sumarizácie pomocou LORA v Anaconda, 4 bit kvanitizácia - llama, mt5-base, mt5 na 6GB RAM
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pozrite sa na google scholar, prečítajte si najnovšie články o sumarizácii súdnych textov a urobte si poznámky.
|
||||
- Napíšte o procese dotrénovania jazykového modelu - supervised finetuning, PEFT-LORA podľa vedeckých článkov.
|
||||
- Vytvoreny pristup bobrovcanova@titan.kemt.fei.tuke.sk.
|
||||
- Dáta sú v /mnt/sharedhome/hladek/corpora/prokuraturadb/
|
||||
- Pripravte si trénovacie a testovacie dáta, zatiaľ bez deanonymizácie a bez prípravy.
|
||||
- Natrénujte a vyhodnotte model pre generovanie poučenia na (základe rozhodnutie a-alebo odôvodnenia).
|
||||
- "Objektívne" vyhodnotenie je pomocou metriky ROUGE alebo BLEU.
|
||||
- Vyskúšajte modely: slovak-mistral 7B., Qwen3 , Gemma, Slovak-t5-base
|
||||
- skripty dajte na kemt git.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Vyhodnotenie presnosti pomocou LLM
|
||||
- Lepšie predspracovanie textu
|
||||
- Generovanie rozhodnutia z odôvodnenia.
|
||||
- sumarizácia zero shot, napr. pomocou gpt-oss
|
||||
|
||||
|
||||
|
||||
Stretnutie 3.4.
|
||||
|
||||
Úlohy:
|
||||
|
Loading…
Reference in New Issue
Block a user