diff --git a/pages/students/2021/matej_novotny/README.md b/pages/students/2021/matej_novotny/README.md index a20df4212..a2812d49b 100644 --- a/pages/students/2021/matej_novotny/README.md +++ b/pages/students/2021/matej_novotny/README.md @@ -14,6 +14,17 @@ rok začiatku štúdia: 2021 Klasifikácia webových dát pre lepšie jazykové modelovanie +Zadanie: + +- Vypracujte prehľad súčasných prístupov a nástrojov na klasifikáciu webových dát podľa typu a na detekciu nenávistného obsahu. +- Navrhnite a implementujte systém, ktorý automaticky roztriedi webové texty podľa uvedených typov a domén a zároveň vyhodnotí ich úroveň nenávisti pomocou trénovaného alebo predtrénovaného modelu. +- Zostavte kvalitný všeobecný a tematický korpus vhodný na trénovanie jazykového modelu. +- Štatisticky analyzujte výskyt jednotlivých kategórií textu a výskyt potenciálne nenávistného obsahu. +- Slovne vyhodnoťte navrhnutý systém a navrhnite ďalšie zlepšenia pre zvýšenie kvality trénovacích dát. + + + + Po trénovaní modelu ho otestujte na relevantných úlohách, vyhodnoťte vplyv klasifikácie a kvality dát na výkonnosť modelu, identifikujte slabé miesta (napr. nedostatočná reprezentatívnosť domén alebo nepresná detekcia nenávisti) a navrhnite konkrétne opatrenia na ich odstránenie. Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.