zpwiki/pages/students/2023/simona_bobrovcanova
2025-04-03 13:19:40 +02:00
..
README.md zz 2025-04-03 13:19:40 +02:00

title published taxonomy
Simona Bobrovčanová true
category tag author
bp2026
lm
nlp
Daniel Hladek

rok začiatku štúdia: 2023

Bakalárska práca 2026

Téma:

Automatická sumarizácia slovenského textu

Ciele:

Zlepšite spracovanie slovenkých právnych textov - vytvorte systém pre sumarizáciu rozsudkov alebo iných právnych dokumentov.

Stretnutie 3.4.

Úlohy:

  • Oboznámte sa s problematikou veľkých jazykových modelov. Towards Data Science
  • Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda.
  • Poučte sa o strojovom účení. Dive into deep learning.
  • Vyskúšajte si framework HF Transformers.
  • Vyskúšajte si veľký jazykový model, napr. cez systém OLLAMA.
  • Oboznámte sa so stránkou otvorenesudy.sk
  • Zistite, ako vieme dotrénovať jazykový model. Zistite čo je to metóda PEFT, čo je to Supervised finetuning.
  • Oboznámte sa s databázou https://huggingface.co/datasets/NaiveNeuron/slovaksum
  • Napíšte si poznámky z vecí ktoré ste sa naučili.

Zásobník úloh:

  • Spracujte slovenské súdne dáta, upravte ich do podoby vhodnej na trénovanie jazykového modelu
  • Natrénujte a vyhodnotte model pre úlohu sumarizácie.