zpwiki/pages/students/2016/mark_feher
2021-10-01 11:20:03 +00:00
..
README.md Update 'pages/students/2016/mark_feher/README.md' 2021-10-01 11:20:03 +00:00

title published taxonomy
Márk Fehér true
category tag author
dp2022
scikit
nlp
klasifikácia
Daniel Hladek

Diplomová práca 2022

Názov diplomovej práce: Klasifikácia textu metódami strojového učenia

Návrh na zadanie DP

  1. Vypracujte prehľad metód klasifikácie textu metódami strojového učenia.
  2. Pripravte slovenské trénovacie dáta vo vhodnom formáte a natrénujte viacero modelov pre klasifikáciu textu do viacerých kategórií
  3. Navrhnite, vykonajte a vyhodnoťte experimenty pre porovnanie presnosti klasifikácie textu.
  4. Navrhnite zlepšenia presnosti klasifikácie textu.

Diplomový projekt 2021

Stretnutie 1.10.

Stav:

  • modifikácia trénovacích skriptov na vypisovanie pomocných štatistík.
  • Vytvorený GIT repozitár
  • Práca na text (cca 22 strán)
  • Pridaná referenčná literatúra.

Úlohy:

  • Stiahnite si šablónu práce a vložte text čo máte pripravené, vrátane bibliografie.
  • Doplňte zdrojové kódy na GITe, tak aby boli kompletné.
  • Zoznam knižníc zapíšte do súboru requirements.txt.
  • Alebo zapíšte zoznam conda balíčkov.

Zásobník úloh:

  • Zopakujte experimenty na korpuse scnc. Slovak Categorized News Corpus.
  • Vyskúšajte klasifikáciu pomocou neurónových sietí.
  • Vytvorte web demo pomocou Docker
  • Skúste klasifikáciu pomocou neurónovej siete.

Stretnutie 23.9.

Stav:

  • vypracovaný draft diplomovej práce
  • pripravené dáta z BeautifulSoup - z rôznych webov (sme.sk)
  • vypracované experimenty pomocou scikit-learn na klasifikátoroch:
    • multinomial Bayes
    • random forest
    • support vector machine
    • Stochastic Gradient Descent Classifier
    • k-neighbours
    • decision tree
  • vypracované vyhodnotenie pomocou konfúznej matice,

Ciele na ďalšie stretnutie:

  • Vytvoríte si repozitár dp2022 na školskom gite, kde dáte dáta, zdrojové kódy aj texty.
  • Vybrať jeden odborný článok alebo knihu o klasifikácii textu a vypracujte poznámky.