KEMT/zpwiki

Daniel Hladek e31cffd42c zz

2025-10-09 11:44:30 +02:00

2.3 KiB

Raw Blame History

title

published

taxonomy

Simona Bobrovčanová

true

category

tag

author

bp2026

lm

nlp

Daniel Hladek

rok začiatku štúdia: 2023

Bakalárska práca 2026

Téma:

Automatická sumarizácia slovenského textu

Ciele:

Zlepšite spracovanie slovenkých právnych textov - vytvorte systém pre sumarizáciu rozsudkov alebo iných právnych dokumentov.

Stretnutie 6.10.2025

Stav:

Preštudované deep learning
Framework HF Transformers
Trénovanie sumarizácie pomocou LORA v Anaconda, 4 bit kvanitizácia - llama, mt5-base, mt5 na 6GB RAM

Úlohy:

Pozrite sa na google scholar, prečítajte si najnovšie články o sumarizácii súdnych textov a urobte si poznámky.
Napíšte o procese dotrénovania jazykového modelu - supervised finetuning, PEFT-LORA podľa vedeckých článkov.
Vytvoreny pristup bobrovcanova@titan.kemt.fei.tuke.sk.
Dáta sú v /mnt/sharedhome/hladek/corpora/prokuraturadb/
Pripravte si trénovacie a testovacie dáta, zatiaľ bez deanonymizácie a bez prípravy.
Natrénujte a vyhodnotte model pre generovanie poučenia na (základe rozhodnutie a-alebo odôvodnenia).
"Objektívne" vyhodnotenie je pomocou metriky ROUGE alebo BLEU.
Vyskúšajte modely: slovak-mistral 7B., Qwen3 , Gemma, Slovak-t5-base
skripty dajte na kemt git.

Zásobník úloh:

Vyhodnotenie presnosti pomocou LLM
Lepšie predspracovanie textu
Generovanie rozhodnutia z odôvodnenia.
sumarizácia zero shot, napr. pomocou gpt-oss

Stretnutie 3.4.

Úlohy:

Oboznámte sa s problematikou veľkých jazykových modelov. Towards Data Science
Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda.
Poučte sa o strojovom účení. Dive into deep learning.
Vyskúšajte si framework HF Transformers.
Vyskúšajte si veľký jazykový model, napr. cez systém OLLAMA.
Oboznámte sa so stránkou otvorenesudy.sk
Zistite, ako vieme dotrénovať jazykový model. Zistite čo je to metóda PEFT, čo je to Supervised finetuning.
Oboznámte sa s databázou https://huggingface.co/datasets/NaiveNeuron/slovaksum
Napíšte si poznámky z vecí ktoré ste sa naučili.

Zásobník úloh:

Spracujte slovenské súdne dáta, upravte ich do podoby vhodnej na trénovanie jazykového modelu
Natrénujte a vyhodnotte model pre úlohu sumarizácie.