| .. | ||
| README.md | ||
| title | published | taxonomy | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Simona Bobrovčanová | true | 
  | 
rok začiatku štúdia: 2023
Bakalárska práca 2026
Téma:
Automatická sumarizácia slovenského textu
Ciele:
Zlepšite spracovanie slovenkých právnych textov - vytvorte systém pre sumarizáciu rozsudkov alebo iných právnych dokumentov.
Stretnutie 6.10.2025
Stav:
- Preštudované deep learning
 - Framework HF Transformers
 - Trénovanie sumarizácie pomocou LORA v Anaconda, 4 bit kvanitizácia - llama, mt5-base, mt5 na 6GB RAM
 
Úlohy:
- Pozrite sa na google scholar, prečítajte si najnovšie články o sumarizácii súdnych textov a urobte si poznámky.
 - Napíšte o procese dotrénovania jazykového modelu - supervised finetuning, PEFT-LORA podľa vedeckých článkov.
 - Vytvoreny pristup bobrovcanova@titan.kemt.fei.tuke.sk.
 - Dáta sú v /mnt/sharedhome/hladek/corpora/prokuraturadb/
 - Pripravte si trénovacie a testovacie dáta, zatiaľ bez deanonymizácie a bez prípravy.
 - Natrénujte a vyhodnotte model pre generovanie poučenia na (základe rozhodnutie a-alebo odôvodnenia).
 - "Objektívne" vyhodnotenie je pomocou metriky ROUGE alebo BLEU.
 - Vyskúšajte modely: slovak-mistral 7B., Qwen3 , Gemma, Slovak-t5-base
 - skripty dajte na kemt git.
 
Zásobník úloh:
- Vyhodnotenie presnosti pomocou LLM
 - Lepšie predspracovanie textu
 - Generovanie rozhodnutia z odôvodnenia.
 - sumarizácia zero shot, napr. pomocou gpt-oss
 
Stretnutie 3.4.
Úlohy:
- Oboznámte sa s problematikou veľkých jazykových modelov. Towards Data Science
 - Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda.
 - Poučte sa o strojovom účení. Dive into deep learning.
 - Vyskúšajte si framework HF Transformers.
 - Vyskúšajte si veľký jazykový model, napr. cez systém OLLAMA.
 - Oboznámte sa so stránkou otvorenesudy.sk
 - Zistite, ako vieme dotrénovať jazykový model. Zistite čo je to metóda PEFT, čo je to Supervised finetuning.
 - Oboznámte sa s databázou https://huggingface.co/datasets/NaiveNeuron/slovaksum
 - Napíšte si poznámky z vecí ktoré ste sa naučili.
 
Zásobník úloh:
- Spracujte slovenské súdne dáta, upravte ich do podoby vhodnej na trénovanie jazykového modelu
 - Natrénujte a vyhodnotte model pre úlohu sumarizácie.