--- title: Simona Bobrovčanová published: true taxonomy: category: [bp2026] tag: [lm,nlp] author: Daniel Hladek --- rok začiatku štúdia: 2023 # Bakalárska práca 2026 Téma: Automatická sumarizácia slovenského textu Ciele: Zlepšite spracovanie slovenkých právnych textov - vytvorte systém pre sumarizáciu rozsudkov alebo iných právnych dokumentov. Stretnutie 6.10.2025 Stav: - Preštudované deep learning - Framework HF Transformers - Trénovanie sumarizácie pomocou LORA v Anaconda, 4 bit kvanitizácia - llama, mt5-base, mt5 na 6GB RAM Úlohy: - Pozrite sa na google scholar, prečítajte si najnovšie články o sumarizácii súdnych textov a urobte si poznámky. - Napíšte o procese dotrénovania jazykového modelu - supervised finetuning, PEFT-LORA podľa vedeckých článkov. - Vytvoreny pristup bobrovcanova@titan.kemt.fei.tuke.sk. - Dáta sú v /mnt/sharedhome/hladek/corpora/prokuraturadb/ - Pripravte si trénovacie a testovacie dáta, zatiaľ bez deanonymizácie a bez prípravy. - Natrénujte a vyhodnotte model pre generovanie poučenia na (základe rozhodnutie a-alebo odôvodnenia). - "Objektívne" vyhodnotenie je pomocou metriky ROUGE alebo BLEU. - Vyskúšajte modely: slovak-mistral 7B., Qwen3 , Gemma, Slovak-t5-base - skripty dajte na kemt git. Zásobník úloh: - Vyhodnotenie presnosti pomocou LLM - Lepšie predspracovanie textu - Generovanie rozhodnutia z odôvodnenia. - sumarizácia zero shot, napr. pomocou gpt-oss Stretnutie 3.4. Úlohy: - Oboznámte sa s problematikou veľkých jazykových modelov. Towards Data Science - Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda. - Poučte sa o strojovom účení. Dive into deep learning. - Vyskúšajte si framework HF Transformers. - Vyskúšajte si veľký jazykový model, napr. cez systém OLLAMA. - Oboznámte sa so stránkou otvorenesudy.sk - Zistite, ako vieme dotrénovať jazykový model. Zistite čo je to metóda PEFT, čo je to Supervised finetuning. - Oboznámte sa s databázou https://huggingface.co/datasets/NaiveNeuron/slovaksum - Napíšte si poznámky z vecí ktoré ste sa naučili. Zásobník úloh: - Spracujte slovenské súdne dáta, upravte ich do podoby vhodnej na trénovanie jazykového modelu - Natrénujte a vyhodnotte model pre úlohu sumarizácie.