From e61779ace3d66abb62ee3c260765358f2800b9b2 Mon Sep 17 00:00:00 2001 From: dano Date: Wed, 4 Jun 2025 07:41:47 +0000 Subject: [PATCH] Update pages/students/2021/matej_novotny/README.md --- pages/students/2021/matej_novotny/README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/pages/students/2021/matej_novotny/README.md b/pages/students/2021/matej_novotny/README.md index f1ad3de1..b75cbec1 100644 --- a/pages/students/2021/matej_novotny/README.md +++ b/pages/students/2021/matej_novotny/README.md @@ -18,7 +18,7 @@ Klasifikácia webových dát pre lepšie jazykové modelovanie Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu. 1. Trénovacie dáta zotriedime podľa druhu (blogy, eshopy, wikipedia, tematicka stranka, diskusie, kniha, clanok,reklama). Druhy textu vyjadrujú kvalitu. Mozeme identifikovat aj domenu (zdravie, pravo, architektura, auta, ). Na to využijeme alebo natrénujeme model. Môžeme vyhodnotiť aj mieru nenávisti v danom texte. -2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. +2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. Je možné využiť HPC Devana. 3. Z týchto textov chceme natrénovať alebo dotrénovať jazykový model.