Update pages/students/2021/matej_novotny/README.md
This commit is contained in:
parent
74bf4c977e
commit
d9bf1a6376
@ -14,6 +14,8 @@ rok začiatku štúdia: 2021
|
|||||||
|
|
||||||
Klasifikácia webových dát pre lepšie jazykové modelovanie
|
Klasifikácia webových dát pre lepšie jazykové modelovanie
|
||||||
|
|
||||||
|
Repo https://git.kemt.fei.tuke.sk/mn180gd/diplomovka
|
||||||
|
|
||||||
Zadanie:
|
Zadanie:
|
||||||
|
|
||||||
1. Vypracujte prehľad súčasných prístupov a nástrojov na klasifikáciu webových dát podľa typu a na detekciu nenávistného obsahu.
|
1. Vypracujte prehľad súčasných prístupov a nástrojov na klasifikáciu webových dát podľa typu a na detekciu nenávistného obsahu.
|
||||||
@ -32,6 +34,25 @@ Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
|
|||||||
2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. Je možné využiť HPC Devana.
|
2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. Je možné využiť HPC Devana.
|
||||||
3. Z týchto textov chceme natrénovať alebo dotrénovať jazykový model.
|
3. Z týchto textov chceme natrénovať alebo dotrénovať jazykový model.
|
||||||
|
|
||||||
|
Stretnutie 28.1.2026
|
||||||
|
|
||||||
|
Stav:
|
||||||
|
|
||||||
|
- Skript na vyhodnotenie hatespeech a klasifikáciu dát je pripravený.
|
||||||
|
- Overenie - sklep dataset a mc4.
|
||||||
|
- Slovak bert je fine tune.
|
||||||
|
- klasifikovanie do: blogy, eshopy, wikipedia, tematicka stranka, diskusie,kniha, clanok,správy
|
||||||
|
- Trénovanie na colab.
|
||||||
|
|
||||||
|
Úlohy:
|
||||||
|
|
||||||
|
- Pridajte kategeóriu iné.
|
||||||
|
- Dotrénujte klasifikátory. Vyhodnotte ich na testovascej množine. Dáta s príkladmi by mali byť rozdelené na térnovanie a testovacie.
|
||||||
|
- Výsledky experimentov dajte do tabuľky. Do práce napíšte trénovací postup aj hyperarametre.
|
||||||
|
- Aplikujte klasifikáciu na webový korpus. Štatistické výsledky dajte do tabuľky.
|
||||||
|
- V teoretickej časti vysvetlite Váš postup a porovnajte ho s inými prístupmi, napr. hplt alebo dolma dataset.
|
||||||
|
- Pripravte prezentáciu
|
||||||
|
|
||||||
Stretnutie 13.11.2025
|
Stretnutie 13.11.2025
|
||||||
|
|
||||||
- Pripravený skript pre rozponávanie nenávisti. Pomocou HF transformers model. Natrénovaný vlastný model na kaggle. Treba na tom ešte pracovať. Založený run_classification z HF transformers examples.
|
- Pripravený skript pre rozponávanie nenávisti. Pomocou HF transformers model. Natrénovaný vlastný model na kaggle. Treba na tom ešte pracovať. Založený run_classification z HF transformers examples.
|
||||||
|
|||||||
Loading…
Reference in New Issue
Block a user