From d9bf1a63769aaf5061eb118ed8baf856d5592e9a Mon Sep 17 00:00:00 2001 From: dano Date: Wed, 28 Jan 2026 08:40:41 +0000 Subject: [PATCH] Update pages/students/2021/matej_novotny/README.md --- pages/students/2021/matej_novotny/README.md | 21 +++++++++++++++++++++ 1 file changed, 21 insertions(+) diff --git a/pages/students/2021/matej_novotny/README.md b/pages/students/2021/matej_novotny/README.md index 43f6ddc7..08ee6f4d 100644 --- a/pages/students/2021/matej_novotny/README.md +++ b/pages/students/2021/matej_novotny/README.md @@ -14,6 +14,8 @@ rok začiatku štúdia: 2021 Klasifikácia webových dát pre lepšie jazykové modelovanie +Repo https://git.kemt.fei.tuke.sk/mn180gd/diplomovka + Zadanie: 1. Vypracujte prehľad súčasných prístupov a nástrojov na klasifikáciu webových dát podľa typu a na detekciu nenávistného obsahu. @@ -32,6 +34,25 @@ Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu. 2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. Je možné využiť HPC Devana. 3. Z týchto textov chceme natrénovať alebo dotrénovať jazykový model. +Stretnutie 28.1.2026 + +Stav: + +- Skript na vyhodnotenie hatespeech a klasifikáciu dát je pripravený. +- Overenie - sklep dataset a mc4. +- Slovak bert je fine tune. +- klasifikovanie do: blogy, eshopy, wikipedia, tematicka stranka, diskusie,kniha, clanok,správy +- Trénovanie na colab. + +Úlohy: + +- Pridajte kategeóriu iné. +- Dotrénujte klasifikátory. Vyhodnotte ich na testovascej množine. Dáta s príkladmi by mali byť rozdelené na térnovanie a testovacie. +- Výsledky experimentov dajte do tabuľky. Do práce napíšte trénovací postup aj hyperarametre. +- Aplikujte klasifikáciu na webový korpus. Štatistické výsledky dajte do tabuľky. +- V teoretickej časti vysvetlite Váš postup a porovnajte ho s inými prístupmi, napr. hplt alebo dolma dataset. +- Pripravte prezentáciu + Stretnutie 13.11.2025 - Pripravený skript pre rozponávanie nenávisti. Pomocou HF transformers model. Natrénovaný vlastný model na kaggle. Treba na tom ešte pracovať. Založený run_classification z HF transformers examples.