forked from KEMT/zpwiki
.. | ||
README.md |
title | published | taxonomy | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
Márk Fehér | true |
|
Diplomová práca 2022
Názov diplomovej práce: Klasifikácia textu metódami strojového učenia
Návrh na zadanie DP
- Vypracujte prehľad metód klasifikácie textu metódami strojového učenia.
- Pripravte slovenské trénovacie dáta vo vhodnom formáte a natrénujte viacero modelov pre klasifikáciu textu do viacerých kategórií
- Navrhnite, vykonajte a vyhodnoťte experimenty pre porovnanie presnosti klasifikácie textu.
- Navrhnite zlepšenia presnosti klasifikácie textu.
Diplomový projekt 2021
Stretnutie 1.10.
Stav:
- modifikácia trénovacích skriptov na vypisovanie pomocných štatistík.
- Vytvorený GIT repozitár
- Pridaná referenčná literatúra.
Stretnutie 23.9.
Stav:
- vypracovaný draft diplomovej práce
- pripravené dáta z BeautifulSoup - z rôznych webov (sme.sk)
- vypracované experimenty pomocou scikit-learn na klasifikátoroch:
- multinomial Bayes
- random forest
- support vector machine
- Stochastic Gradient Descent Classifier
- k-neighbours
- decision tree
- vypracované vyhodnotenie pomocou konfúznej matice,
Ciele na ďalšie stretnutie:
- Vytvoríte si repozitár dp2022 na školskom gite, kde dáte dáta, zdrojové kódy aj texty.
- Vybrať jeden odborný článok alebo knihu o klasifikácii textu a vypracujte poznámky.
Zásobník úloh:
- Zopakujte experimenty na korpuse scnc. Slovak Categorized News Corpus.
- Vyskúšajte klasifikáciu pomocou neurónových sietí.