--- title: Márk Fehér published: true taxonomy: category: [dp2022] tag: [scikit,nlp,klasifikácia] author: Daniel Hladek --- # Diplomová práca 2022 Názov diplomovej práce: Klasifikácia textu metódami strojového učenia - [GIT repozitár](https://git.kemt.fei.tuke.sk/mf425hk/dp2022) ## Návrh na zadanie DP 1. Vypracujte prehľad metód klasifikácie textu metódami strojového učenia. 2. Pripravte slovenské trénovacie dáta vo vhodnom formáte a natrénujte viacero modelov pre klasifikáciu textu do viacerých kategórií 3. Navrhnite, vykonajte a vyhodnoťte experimenty pre porovnanie presnosti klasifikácie textu. 4. Navrhnite zlepšenia presnosti klasifikácie textu. ## Diplomový projekt 2021 Stretnutie 1.10. Stav: - modifikácia trénovacích skriptov na vypisovanie pomocných štatistík. Stretnutie 23.9. Stav: - vypracovaný draft diplomovej práce - pripravené dáta z BeautifulSoup - z rôznych webov (sme.sk) - vypracované experimenty pomocou scikit-learn na klasifikátoroch: - multinomial Bayes - random forest - support vector machine - Stochastic Gradient Descent Classifier - k-neighbours - decision tree - vypracované vyhodnotenie pomocou konfúznej matice, Ciele na ďalšie stretnutie: - Vytvoríte si repozitár dp2022 na školskom gite, kde dáte dáta, zdrojové kódy aj texty. - Vybrať jeden odborný článok alebo knihu o klasifikácii textu a vypracujte poznámky. Zásobník úloh: - Zopakujte experimenty na korpuse scnc. Slovak Categorized News Corpus. - Vyskúšajte klasifikáciu pomocou neurónových sietí.