forked from KEMT/zpwiki
Update pages/students/2021/matej_novotny/README.md
This commit is contained in:
parent
56bb93de8e
commit
d915e95b14
@ -14,6 +14,17 @@ rok začiatku štúdia: 2021
|
|||||||
|
|
||||||
Klasifikácia webových dát pre lepšie jazykové modelovanie
|
Klasifikácia webových dát pre lepšie jazykové modelovanie
|
||||||
|
|
||||||
|
Zadanie:
|
||||||
|
|
||||||
|
- Vypracujte prehľad súčasných prístupov a nástrojov na klasifikáciu webových dát podľa typu a na detekciu nenávistného obsahu.
|
||||||
|
- Navrhnite a implementujte systém, ktorý automaticky roztriedi webové texty podľa uvedených typov a domén a zároveň vyhodnotí ich úroveň nenávisti pomocou trénovaného alebo predtrénovaného modelu.
|
||||||
|
- Zostavte kvalitný všeobecný a tematický korpus vhodný na trénovanie jazykového modelu.
|
||||||
|
- Štatisticky analyzujte výskyt jednotlivých kategórií textu a výskyt potenciálne nenávistného obsahu.
|
||||||
|
- Slovne vyhodnoťte navrhnutý systém a navrhnite ďalšie zlepšenia pre zvýšenie kvality trénovacích dát.
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
Po trénovaní modelu ho otestujte na relevantných úlohách, vyhodnoťte vplyv klasifikácie a kvality dát na výkonnosť modelu, identifikujte slabé miesta (napr. nedostatočná reprezentatívnosť domén alebo nepresná detekcia nenávisti) a navrhnite konkrétne opatrenia na ich odstránenie.
|
||||||
|
|
||||||
Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
|
Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
|
||||||
|
|
||||||
|
|||||||
Loading…
Reference in New Issue
Block a user