Update pages/students/2021/matej_novotny/README.md

This commit is contained in:
dano 2025-06-04 07:41:47 +00:00
parent 81adbdb680
commit e61779ace3

View File

@ -18,7 +18,7 @@ Klasifikácia webových dát pre lepšie jazykové modelovanie
Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
1. Trénovacie dáta zotriedime podľa druhu (blogy, eshopy, wikipedia, tematicka stranka, diskusie, kniha, clanok,reklama). Druhy textu vyjadrujú kvalitu. Mozeme identifikovat aj domenu (zdravie, pravo, architektura, auta, ). Na to využijeme alebo natrénujeme model. Môžeme vyhodnotiť aj mieru nenávisti v danom texte.
2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus.
2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. Je možné využiť HPC Devana.
3. Z týchto textov chceme natrénovať alebo dotrénovať jazykový model.