zpwiki/pages/students/2023/simona_bobrovcanova/README.md
2025-10-09 11:44:30 +02:00

2.3 KiB

title published taxonomy
Simona Bobrovčanová true
category tag author
bp2026
lm
nlp
Daniel Hladek

rok začiatku štúdia: 2023

Bakalárska práca 2026

Téma:

Automatická sumarizácia slovenského textu

Ciele:

Zlepšite spracovanie slovenkých právnych textov - vytvorte systém pre sumarizáciu rozsudkov alebo iných právnych dokumentov.

Stretnutie 6.10.2025

Stav:

  • Preštudované deep learning
  • Framework HF Transformers
  • Trénovanie sumarizácie pomocou LORA v Anaconda, 4 bit kvanitizácia - llama, mt5-base, mt5 na 6GB RAM

Úlohy:

  • Pozrite sa na google scholar, prečítajte si najnovšie články o sumarizácii súdnych textov a urobte si poznámky.
  • Napíšte o procese dotrénovania jazykového modelu - supervised finetuning, PEFT-LORA podľa vedeckých článkov.
  • Vytvoreny pristup bobrovcanova@titan.kemt.fei.tuke.sk.
  • Dáta sú v /mnt/sharedhome/hladek/corpora/prokuraturadb/
  • Pripravte si trénovacie a testovacie dáta, zatiaľ bez deanonymizácie a bez prípravy.
  • Natrénujte a vyhodnotte model pre generovanie poučenia na (základe rozhodnutie a-alebo odôvodnenia).
  • "Objektívne" vyhodnotenie je pomocou metriky ROUGE alebo BLEU.
  • Vyskúšajte modely: slovak-mistral 7B., Qwen3 , Gemma, Slovak-t5-base
  • skripty dajte na kemt git.

Zásobník úloh:

  • Vyhodnotenie presnosti pomocou LLM
  • Lepšie predspracovanie textu
  • Generovanie rozhodnutia z odôvodnenia.
  • sumarizácia zero shot, napr. pomocou gpt-oss

Stretnutie 3.4.

Úlohy:

  • Oboznámte sa s problematikou veľkých jazykových modelov. Towards Data Science
  • Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda.
  • Poučte sa o strojovom účení. Dive into deep learning.
  • Vyskúšajte si framework HF Transformers.
  • Vyskúšajte si veľký jazykový model, napr. cez systém OLLAMA.
  • Oboznámte sa so stránkou otvorenesudy.sk
  • Zistite, ako vieme dotrénovať jazykový model. Zistite čo je to metóda PEFT, čo je to Supervised finetuning.
  • Oboznámte sa s databázou https://huggingface.co/datasets/NaiveNeuron/slovaksum
  • Napíšte si poznámky z vecí ktoré ste sa naučili.

Zásobník úloh:

  • Spracujte slovenské súdne dáta, upravte ich do podoby vhodnej na trénovanie jazykového modelu
  • Natrénujte a vyhodnotte model pre úlohu sumarizácie.