---
title: Márk Fehér
published: true
taxonomy:
    category: [dp2022]
    tag: [scikit,nlp,klasifikácia]
    author: Daniel Hladek
---
# Diplomová práca 2022

Názov diplomovej práce: Klasifikácia textu metódami strojového učenia


## Návrh na zadanie DP

1. Vypracujte prehľad metód klasifikácie textu metódami strojového učenia.
2. Pripravte slovenské  trénovacie dáta vo vhodnom formáte a natrénujte viacero modelov pre klasifikáciu textu do viacerých kategórií
3. Navrhnite, vykonajte a vyhodnoťte experimenty pre porovnanie presnosti klasifikácie textu. 
4. Navrhnite zlepšenia presnosti klasifikácie textu.


## Diplomový projekt 2021


Stav:

- vypracovaný draft diplomovej práce
- pripravené dáta z BeautifulSoup - z rôznych webov (sme.sk) 
- vypracované experimenty pomocou scikit-learn na klasifikátoroch:
    - multinomial Bayes
    - random forest
    - support vector machine
    - Stochastic Gradient Descent Classifier
    - k-neighbours
    - decision tree
- vypracované vyhodnotenie pomocou konfúznej matice,


Ciele na ďalšie stretnutie:

- Vytvoríte si repozitár dp2022 na školskom gite, kde dáte dáta, zdrojové kódy aj texty. 
- Vybrať jeden odborný článok alebo knihu o klasifikácii textu a vypracujte poznámky.

Zásobník úloh:

- Zopakujte experimenty na korpuse scnc. Slovak Categorized News Corpus.
- Vyskúšajte klasifikáciu pomocou neurónových sietí.