dmytro_ushatenko/pages/students/2016/mark_feher
2021-12-03 09:27:46 +00:00
..
README.md Update 'pages/students/2016/mark_feher/README.md' 2021-12-03 09:27:46 +00:00

title published taxonomy
Márk Fehér true
category tag author
dp2022
scikit
nlp
klasifikácia
Daniel Hladek

Diplomová práca 2022

Názov diplomovej práce: Klasifikácia textu metódami strojového učenia

Návrh na zadanie DP

  1. Vypracujte prehľad metód klasifikácie textu metódami strojového učenia.
  2. Pripravte slovenské trénovacie dáta vo vhodnom formáte a natrénujte viacero modelov pre klasifikáciu textu do viacerých kategórií
  3. Navrhnite, vykonajte a vyhodnoťte experimenty pre porovnanie presnosti klasifikácie textu.
  4. Navrhnite zlepšenia presnosti klasifikácie textu.

Diplomový projekt 2021

Stretnutie 3.12.

  • Dopracované vyhodnotenie pomocou SCNC. Výsledkom je konfúzna matica a grafy presnosti so štatistickými modelmi.
  • Rozpracovaná klasifikácia LSTM (Keras).

Úlohy:

  • Pridať klasifikáciu pomocou Huggingface Transformers, model SlovakBert, multilingualBert, alebo aj iné multilinguálne modely.
  • dokončiť LSTM.
  • Pokračovať na textovej časti.

Stretnutie 5.11.2021

  • Práca na texte, štúdium literatúry
  • pridané kódy na GIT

Úlohy:

  • Zopakujte experimenty na korpuse scnc. Slovak Categorized News Corpus.
  • Pokračujte v otvorených úlohách
  • Upravte skripty do opakovateľnej podoby, pripravte dokumentáciu k skriptom.

Stretnutie 15.10.

  • trénovanie pomocou LSTM, zatiaľ nie je na gite
  • písanie do šabóny práce (cca 35 strán).

Úlohy:

  • Doplniť na GIT.
  • Zabrániť overfittingu LSTM. Early stopping alebo dropout.

Stretnutie 1.10.

Stav:

  • modifikácia trénovacích skriptov na vypisovanie pomocných štatistík.
  • Vytvorený GIT repozitár
  • Práca na text (cca 22 strán)
  • Pridaná referenčná literatúra.

Úlohy:

  • Stiahnite si šablónu práce a vložte text čo máte pripravené, vrátane bibliografie.
  • Doplňte zdrojové kódy na GITe, tak aby boli opakovateľné.
  • Zoznam knižníc zapíšte do súboru requirements.txt.
  • Alebo zapíšte zoznam conda balíčkov.
  • Vyberte jednu úlohu zo zásobníka a vypracujte ju.

Zásobník úloh:

  • Vyskúšajte klasifikáciu pomocou neurónových sietí.
  • Vytvorte web demo pomocou Docker
  • Skúste klasifikáciu pomocou neurónovej siete.

Stretnutie 23.9.

Stav:

  • vypracovaný draft diplomovej práce
  • pripravené dáta z BeautifulSoup - z rôznych webov (sme.sk)
  • vypracované experimenty pomocou scikit-learn na klasifikátoroch:
    • multinomial Bayes
    • random forest
    • support vector machine
    • Stochastic Gradient Descent Classifier
    • k-neighbours
    • decision tree
  • vypracované vyhodnotenie pomocou konfúznej matice,

Ciele na ďalšie stretnutie:

  • Vytvoríte si repozitár dp2022 na školskom gite, kde dáte dáta, zdrojové kódy aj texty.
  • Vybrať jeden odborný článok alebo knihu o klasifikácii textu a vypracujte poznámky.