zpwiki/pages/students/2023/simona_bobrovcanova
2025-12-05 09:58:00 +00:00
..
README.md Update pages/students/2023/simona_bobrovcanova/README.md 2025-12-05 09:58:00 +00:00

title published taxonomy
Simona Bobrovčanová true
category tag author
bp2026
lm
nlp
Daniel Hladek

rok začiatku štúdia: 2023

Bakalárska práca 2026

Téma:

Automatická sumarizácia slovenského textu

https://git.kemt.fei.tuke.sk/sb610oy/bakalarska-praca

Ciele:

Zlepšite spracovanie slovenských právnych textov - vytvorte systém pre sumarizáciu rozsudkov alebo iných právnych dokumentov.

Stretnutie 5.12.2025

Stav:

  • Napísané poznámky o procese dotrénovania pre sumarizáciu, prečítané články zo Scholar.
  • Pripravené dáta zo sudov pre trénovanie sumarizácie. Text rozhodnutia je vstup, výstup je poučenie. Hlavička a odôvodnenie sa momentálne neberie do úvahy.
  • Pripravený skript na LORA dotrénovanie.
  • Vyhodnotenie pomocou ROUGE and BLEU.
  • Dotrénované a vyhodnotené modely slovak-mistral 7B., Qwen3 , Gemma, Slovak-t5-base
  • Vyzerá to tak, že problémom je dĺžka kontextu. Modely často vynechajú informácie na konci.

Úlohy:

  • Možné riešenie problému s kontextom je "hierarchická sumarizácia" - model najprv sumarizuje na kratších častiach a potom spojí výsledky do jedného. Sú aj iné spôsoby riešenia? (napr. pomocou vektorových modelov) Toto je možné napísať do prehľadu.
  • Vypracujte automatické vyhodnotenie sumarizácie pomocu jazykového modelu. Vedúci dodá skript .
  • Vyskúšajte "zero shot prístup" pomocou "veľkého jazykového modelu". Porovnajte veľký model a dotrénované modely.
  • Výsledky experimentov dajte do tabuľky.

Zásobník úloh:

  • Implementujte niektorý prístup na prácu s veľkým kontextom.

Stretnutie 6.10.2025

Stav:

  • Preštudované deep learning
  • Framework HF Transformers
  • Trénovanie sumarizácie pomocou LORA v Anaconda, 4 bit kvanitizácia - llama, mt5-base, mt5 na 6GB RAM

Úlohy:

  • Pozrite sa na google scholar, prečítajte si najnovšie články o sumarizácii súdnych textov a urobte si poznámky.
  • Napíšte o procese dotrénovania jazykového modelu - supervised finetuning, PEFT-LORA podľa vedeckých článkov.
  • Vytvoreny pristup bobrovcanova@titan.kemt.fei.tuke.sk.
  • Dáta sú v /mnt/sharedhome/hladek/corpora/prokuraturadb/
  • Pripravte si trénovacie a testovacie dáta, zatiaľ bez deanonymizácie a bez prípravy.
  • Natrénujte a vyhodnotte model pre generovanie poučenia na (základe rozhodnutie a-alebo odôvodnenia).
  • "Objektívne" vyhodnotenie je pomocou metriky ROUGE alebo BLEU.
  • Vyskúšajte modely: slovak-mistral 7B., Qwen3 , Gemma, Slovak-t5-base
  • skripty dajte na kemt git.

Zásobník úloh:

  • Vyhodnotenie presnosti pomocou LLM
  • Lepšie predspracovanie textu
  • Generovanie rozhodnutia z odôvodnenia.
  • sumarizácia zero shot, napr. pomocou gpt-oss

Stretnutie 3.4.

Úlohy:

  • Oboznámte sa s problematikou veľkých jazykových modelov. Towards Data Science
  • Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda.
  • Poučte sa o strojovom účení. Dive into deep learning.
  • Vyskúšajte si framework HF Transformers.
  • Vyskúšajte si veľký jazykový model, napr. cez systém OLLAMA.
  • Oboznámte sa so stránkou otvorenesudy.sk
  • Zistite, ako vieme dotrénovať jazykový model. Zistite čo je to metóda PEFT, čo je to Supervised finetuning.
  • Oboznámte sa s databázou https://huggingface.co/datasets/NaiveNeuron/slovaksum
  • Napíšte si poznámky z vecí ktoré ste sa naučili.

Zásobník úloh:

  • Spracujte slovenské súdne dáta, upravte ich do podoby vhodnej na trénovanie jazykového modelu
  • Natrénujte a vyhodnotte model pre úlohu sumarizácie.