--- title: Márk Fehér published: true taxonomy: category: [dp2022] tag: [scikit,nlp,klasifikácia] author: Daniel Hladek --- # Diplomová práca 2022 Názov diplomovej práce: Klasifikácia textu metódami strojového učenia - [GIT repozitár](https://git.kemt.fei.tuke.sk/mf425hk/dp2022) ## Návrh na zadanie DP 1. Vypracujte prehľad metód klasifikácie textu metódami strojového učenia. 2. Pripravte slovenské trénovacie dáta vo vhodnom formáte a natrénujte viacero modelov pre klasifikáciu textu do viacerých kategórií 3. Navrhnite, vykonajte a vyhodnoťte experimenty pre porovnanie presnosti klasifikácie textu. 4. Navrhnite zlepšenia presnosti klasifikácie textu. ## Diplomový projekt 2021 Stretnutie 3.12. - Dopracované vyhodnotenie pomocou SCNC. Výsledkom je konfúzna matica a grafy presnosti so štatistickými modelmi. - Rozpracovaná klasifikácia LSTM (Keras). Úlohy: - Pridať klasifikáciu pomocou Huggingface Transformers, model SlovakBert, multilingualBert, alebo aj iné multilinguálne modely. - dokončiť LSTM. - Pokračovať na textovej časti. Stretnutie 5.11.2021 - Práca na texte, štúdium literatúry - pridané kódy na GIT Úlohy: - Zopakujte experimenty na korpuse scnc. Slovak Categorized News Corpus. - Pokračujte v otvorených úlohách - Upravte skripty do opakovateľnej podoby, pripravte dokumentáciu k skriptom. Stretnutie 15.10. - trénovanie pomocou LSTM, zatiaľ nie je na gite - písanie do šabóny práce (cca 35 strán). Úlohy: - Doplniť na GIT. - Zabrániť overfittingu LSTM. Early stopping alebo dropout. Stretnutie 1.10. Stav: - modifikácia trénovacích skriptov na vypisovanie pomocných štatistík. - Vytvorený GIT repozitár - Práca na text (cca 22 strán) - Pridaná referenčná literatúra. Úlohy: - [x] Stiahnite si šablónu práce a vložte text čo máte pripravené, vrátane bibliografie. - [x] Doplňte zdrojové kódy na GITe, tak aby boli opakovateľné. - [x] Zoznam knižníc zapíšte do súboru requirements.txt. - Alebo zapíšte zoznam conda balíčkov. - Vyberte jednu úlohu zo zásobníka a vypracujte ju. Zásobník úloh: - Vyskúšajte klasifikáciu pomocou neurónových sietí. - Vytvorte web demo pomocou Docker - [x] Skúste klasifikáciu pomocou neurónovej siete. Stretnutie 23.9. Stav: - vypracovaný draft diplomovej práce - pripravené dáta z BeautifulSoup - z rôznych webov (sme.sk) - vypracované experimenty pomocou scikit-learn na klasifikátoroch: - multinomial Bayes - random forest - support vector machine - Stochastic Gradient Descent Classifier - k-neighbours - decision tree - vypracované vyhodnotenie pomocou konfúznej matice, Ciele na ďalšie stretnutie: - Vytvoríte si repozitár dp2022 na školskom gite, kde dáte dáta, zdrojové kódy aj texty. - Vybrať jeden odborný článok alebo knihu o klasifikácii textu a vypracujte poznámky.