Update pages/students/2021/matej_novotny/README.md

This commit is contained in:
dano 2026-01-28 08:40:41 +00:00
parent 74bf4c977e
commit d9bf1a6376

View File

@ -14,6 +14,8 @@ rok začiatku štúdia: 2021
Klasifikácia webových dát pre lepšie jazykové modelovanie
Repo https://git.kemt.fei.tuke.sk/mn180gd/diplomovka
Zadanie:
1. Vypracujte prehľad súčasných prístupov a nástrojov na klasifikáciu webových dát podľa typu a na detekciu nenávistného obsahu.
@ -32,6 +34,25 @@ Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. Je možné využiť HPC Devana.
3. Z týchto textov chceme natrénovať alebo dotrénovať jazykový model.
Stretnutie 28.1.2026
Stav:
- Skript na vyhodnotenie hatespeech a klasifikáciu dát je pripravený.
- Overenie - sklep dataset a mc4.
- Slovak bert je fine tune.
- klasifikovanie do: blogy, eshopy, wikipedia, tematicka stranka, diskusie,kniha, clanok,správy
- Trénovanie na colab.
Úlohy:
- Pridajte kategeóriu iné.
- Dotrénujte klasifikátory. Vyhodnotte ich na testovascej množine. Dáta s príkladmi by mali byť rozdelené na térnovanie a testovacie.
- Výsledky experimentov dajte do tabuľky. Do práce napíšte trénovací postup aj hyperarametre.
- Aplikujte klasifikáciu na webový korpus. Štatistické výsledky dajte do tabuľky.
- V teoretickej časti vysvetlite Váš postup a porovnajte ho s inými prístupmi, napr. hplt alebo dolma dataset.
- Pripravte prezentáciu
Stretnutie 13.11.2025
- Pripravený skript pre rozponávanie nenávisti. Pomocou HF transformers model. Natrénovaný vlastný model na kaggle. Treba na tom ešte pracovať. Založený run_classification z HF transformers examples.