Update pages/students/2021/matej_novotny/README.md
This commit is contained in:
parent
74bf4c977e
commit
d9bf1a6376
@ -14,6 +14,8 @@ rok začiatku štúdia: 2021
|
||||
|
||||
Klasifikácia webových dát pre lepšie jazykové modelovanie
|
||||
|
||||
Repo https://git.kemt.fei.tuke.sk/mn180gd/diplomovka
|
||||
|
||||
Zadanie:
|
||||
|
||||
1. Vypracujte prehľad súčasných prístupov a nástrojov na klasifikáciu webových dát podľa typu a na detekciu nenávistného obsahu.
|
||||
@ -32,6 +34,25 @@ Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
|
||||
2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. Je možné využiť HPC Devana.
|
||||
3. Z týchto textov chceme natrénovať alebo dotrénovať jazykový model.
|
||||
|
||||
Stretnutie 28.1.2026
|
||||
|
||||
Stav:
|
||||
|
||||
- Skript na vyhodnotenie hatespeech a klasifikáciu dát je pripravený.
|
||||
- Overenie - sklep dataset a mc4.
|
||||
- Slovak bert je fine tune.
|
||||
- klasifikovanie do: blogy, eshopy, wikipedia, tematicka stranka, diskusie,kniha, clanok,správy
|
||||
- Trénovanie na colab.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pridajte kategeóriu iné.
|
||||
- Dotrénujte klasifikátory. Vyhodnotte ich na testovascej množine. Dáta s príkladmi by mali byť rozdelené na térnovanie a testovacie.
|
||||
- Výsledky experimentov dajte do tabuľky. Do práce napíšte trénovací postup aj hyperarametre.
|
||||
- Aplikujte klasifikáciu na webový korpus. Štatistické výsledky dajte do tabuľky.
|
||||
- V teoretickej časti vysvetlite Váš postup a porovnajte ho s inými prístupmi, napr. hplt alebo dolma dataset.
|
||||
- Pripravte prezentáciu
|
||||
|
||||
Stretnutie 13.11.2025
|
||||
|
||||
- Pripravený skript pre rozponávanie nenávisti. Pomocou HF transformers model. Natrénovaný vlastný model na kaggle. Treba na tom ešte pracovať. Založený run_classification z HF transformers examples.
|
||||
|
||||
Loading…
Reference in New Issue
Block a user