dmytro_ushatenko/pages/students/2016/mark_feher/README.md

1.7 KiB

title published taxonomy
Márk Fehér true
category tag author
dp2022
scikit
nlp
klasifikácia
Daniel Hladek

Diplomová práca 2022

Názov diplomovej práce: Klasifikácia textu metódami strojového učenia

Návrh na zadanie DP

  1. Vypracujte prehľad metód klasifikácie textu metódami strojového učenia.
  2. Pripravte slovenské trénovacie dáta vo vhodnom formáte a natrénujte viacero modelov pre klasifikáciu textu do viacerých kategórií
  3. Navrhnite, vykonajte a vyhodnoťte experimenty pre porovnanie presnosti klasifikácie textu.
  4. Navrhnite zlepšenia presnosti klasifikácie textu.

Diplomový projekt 2021

Stretnutie 1.10.

Stav:

  • modifikácia trénovacích skriptov na vypisovanie pomocných štatistík.
  • Vytvorený GIT repozitár
  • Pridaná referenčná literatúra.

Stretnutie 23.9.

Stav:

  • vypracovaný draft diplomovej práce
  • pripravené dáta z BeautifulSoup - z rôznych webov (sme.sk)
  • vypracované experimenty pomocou scikit-learn na klasifikátoroch:
    • multinomial Bayes
    • random forest
    • support vector machine
    • Stochastic Gradient Descent Classifier
    • k-neighbours
    • decision tree
  • vypracované vyhodnotenie pomocou konfúznej matice,

Ciele na ďalšie stretnutie:

  • Vytvoríte si repozitár dp2022 na školskom gite, kde dáte dáta, zdrojové kódy aj texty.
  • Vybrať jeden odborný článok alebo knihu o klasifikácii textu a vypracujte poznámky.

Zásobník úloh:

  • Zopakujte experimenty na korpuse scnc. Slovak Categorized News Corpus.
  • Vyskúšajte klasifikáciu pomocou neurónových sietí.