History

Daniel Hladek aa5d4e104d zz		2025-04-03 13:19:40 +02:00
..
README.md	zz	2025-04-03 13:19:40 +02:00

title

published

taxonomy

Simona Bobrovčanová

true

Bakalárska práca 2026

Téma:

Automatická sumarizácia slovenského textu

Ciele:

Zlepšite spracovanie slovenkých právnych textov - vytvorte systém pre sumarizáciu rozsudkov alebo iných právnych dokumentov.

Stretnutie 3.4.

Úlohy:

Oboznámte sa s problematikou veľkých jazykových modelov. Towards Data Science
Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda.
Poučte sa o strojovom účení. Dive into deep learning.
Vyskúšajte si framework HF Transformers.
Vyskúšajte si veľký jazykový model, napr. cez systém OLLAMA.
Oboznámte sa so stránkou otvorenesudy.sk
Zistite, ako vieme dotrénovať jazykový model. Zistite čo je to metóda PEFT, čo je to Supervised finetuning.
Oboznámte sa s databázou https://huggingface.co/datasets/NaiveNeuron/slovaksum
Napíšte si poznámky z vecí ktoré ste sa naučili.

Zásobník úloh:

Spracujte slovenské súdne dáta, upravte ich do podoby vhodnej na trénovanie jazykového modelu
Natrénujte a vyhodnotte model pre úlohu sumarizácie.