Update pages/students/2021/matej_novotny/README.md

2026-01-28 08:40:41 +00:00 · 2026-01-28 08:40:41 +00:00 · d9bf1a6376
commit d9bf1a6376
parent 74bf4c977e
1 changed files with 21 additions and 0 deletions
--- a/pages/students/2021/matej_novotny/README.md
+++ b/pages/students/2021/matej_novotny/README.md
@ -14,6 +14,8 @@ rok začiatku štúdia: 2021

 Klasifikácia webových dát pre lepšie jazykové modelovanie

+Repo https://git.kemt.fei.tuke.sk/mn180gd/diplomovka
+
 Zadanie:

 1. Vypracujte prehľad súčasných prístupov a nástrojov na klasifikáciu webových dát podľa typu a na detekciu nenávistného obsahu.  
@ -32,6 +34,25 @@ Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
 2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. Je možné využiť HPC Devana.
 3. Z týchto textov chceme natrénovať alebo dotrénovať jazykový model.

+Stretnutie 28.1.2026
+
+Stav:
+
+- Skript na vyhodnotenie hatespeech a klasifikáciu dát je pripravený.
+- Overenie - sklep dataset a mc4. 
+- Slovak bert je fine tune.
+- klasifikovanie do: blogy, eshopy, wikipedia, tematicka stranka, diskusie,kniha, clanok,správy
+- Trénovanie na colab.
+
+Úlohy:
+
+- Pridajte kategeóriu iné.
+- Dotrénujte klasifikátory. Vyhodnotte ich na testovascej množine. Dáta s príkladmi by mali byť rozdelené na térnovanie a testovacie.
+- Výsledky experimentov dajte do tabuľky. Do práce napíšte trénovací postup aj hyperarametre. 
+- Aplikujte klasifikáciu na webový korpus. Štatistické výsledky dajte do tabuľky. 
+- V teoretickej časti vysvetlite Váš postup a porovnajte ho s inými prístupmi, napr. hplt alebo dolma dataset.
+- Pripravte prezentáciu
+
 Stretnutie 13.11.2025

 - Pripravený skript pre rozponávanie nenávisti. Pomocou HF transformers model. Natrénovaný vlastný model na kaggle. Treba na tom ešte pracovať. Založený run_classification z HF transformers examples.