forked from KEMT/zpwiki
		
	
		
			
				
	
	
		
			74 lines
		
	
	
		
			2.3 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			74 lines
		
	
	
		
			2.3 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
---
 | 
						|
title: Simona Bobrovčanová
 | 
						|
published: true
 | 
						|
taxonomy:
 | 
						|
    category: [bp2026]
 | 
						|
    tag: [lm,nlp]
 | 
						|
    author: Daniel Hladek
 | 
						|
---
 | 
						|
 | 
						|
 | 
						|
rok začiatku štúdia: 2023
 | 
						|
 | 
						|
 | 
						|
# Bakalárska práca 2026
 | 
						|
 | 
						|
 | 
						|
Téma:
 | 
						|
 | 
						|
Automatická sumarizácia slovenského textu
 | 
						|
 | 
						|
Ciele:
 | 
						|
 | 
						|
Zlepšite spracovanie slovenkých právnych textov - vytvorte systém pre sumarizáciu rozsudkov alebo iných právnych dokumentov.
 | 
						|
 | 
						|
Stretnutie 6.10.2025
 | 
						|
 | 
						|
Stav:
 | 
						|
 | 
						|
- Preštudované deep learning
 | 
						|
- Framework HF Transformers
 | 
						|
- Trénovanie sumarizácie pomocou LORA v Anaconda, 4 bit kvanitizácia - llama, mt5-base, mt5 na 6GB RAM
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Pozrite sa na google scholar, prečítajte si najnovšie články o sumarizácii súdnych textov a urobte si poznámky.
 | 
						|
- Napíšte o procese dotrénovania jazykového modelu - supervised finetuning, PEFT-LORA podľa vedeckých článkov.
 | 
						|
- Vytvoreny pristup bobrovcanova@titan.kemt.fei.tuke.sk.
 | 
						|
- Dáta sú v /mnt/sharedhome/hladek/corpora/prokuraturadb/
 | 
						|
- Pripravte si trénovacie  a testovacie dáta, zatiaľ bez deanonymizácie a bez prípravy.
 | 
						|
- Natrénujte a vyhodnotte model pre generovanie poučenia na (základe rozhodnutie a-alebo odôvodnenia). 
 | 
						|
- "Objektívne" vyhodnotenie je pomocou metriky ROUGE alebo BLEU.
 | 
						|
- Vyskúšajte modely: slovak-mistral 7B., Qwen3 , Gemma,  Slovak-t5-base
 | 
						|
- skripty dajte na kemt git.
 | 
						|
 | 
						|
Zásobník úloh:
 | 
						|
 | 
						|
- Vyhodnotenie presnosti pomocou LLM
 | 
						|
- Lepšie predspracovanie textu
 | 
						|
- Generovanie rozhodnutia z odôvodnenia.
 | 
						|
- sumarizácia zero shot, napr. pomocou gpt-oss
 | 
						|
 | 
						|
 | 
						|
 | 
						|
Stretnutie 3.4.
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Oboznámte sa s problematikou veľkých jazykových modelov. Towards Data Science
 | 
						|
- Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda.
 | 
						|
- Poučte sa o strojovom účení. Dive into deep learning.
 | 
						|
- Vyskúšajte si framework HF Transformers.
 | 
						|
- Vyskúšajte si veľký jazykový model, napr. cez systém OLLAMA.
 | 
						|
- Oboznámte sa so stránkou otvorenesudy.sk
 | 
						|
- Zistite, ako vieme dotrénovať jazykový model. Zistite čo je to metóda PEFT, čo je to Supervised finetuning.
 | 
						|
- Oboznámte sa s databázou https://huggingface.co/datasets/NaiveNeuron/slovaksum
 | 
						|
- Napíšte si poznámky z vecí ktoré ste sa naučili.
 | 
						|
 | 
						|
Zásobník úloh:
 | 
						|
 | 
						|
 
 | 
						|
- Spracujte slovenské súdne dáta, upravte ich do podoby vhodnej na trénovanie jazykového modelu
 | 
						|
- Natrénujte a vyhodnotte model pre úlohu sumarizácie.
 | 
						|
 |