Update pages/students/2021/matej_novotny/README.md

2025-06-04 07:35:43 +00:00 · 2025-06-04 07:35:43 +00:00 · b41de7711f
commit b41de7711f
parent 34a1d59a76
1 changed files with 18 additions and 0 deletions
--- a/pages/students/2021/matej_novotny/README.md
+++ b/pages/students/2021/matej_novotny/README.md
@ -17,6 +17,24 @@ Klasifikácia webových dát pre lepšie jazykové modelovanie
 Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
 1. Trénovacie dáta zotriedime podľa druhu (blogy, eshopy, wikipedia, tematicka stranka, diskusie, kniha, clanok,reklama). Druhy textu vyjadrujú kvalitu. Mozeme identifikovat aj domenu (zdravie, pravo, architektura, auta, ). Na to využijeme alebo natrénujeme model. Môžeme vyhodnotiť aj mieru nenávisti v danom texte. 
 2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus.
 3. Z týchto textov chceme natrénovať alebo dotrénovať jazykový model.
 Stretnutie 4.6.2025
 Stav:
 - naštudovaná klasifikácia pomocou Transformer.
 - preskúmany mc4 dataset.
 Úloha:
 - naučiť sa procovať s HF Transformers. Prejdite si tutoriál na klasifikáciu dokumentov. Pozrite sa do adresára na githube examples/pytorch/classification, tam nájdete skripty pre klasifikáciu.
 Stretnutie: