zpwiki/pages/students/2016/mark_feher/README.md

83 lines
2.3 KiB
Markdown
Raw Normal View History

---
title: Márk Fehér
published: true
taxonomy:
category: [dp2022]
tag: [scikit,nlp,klasifikácia]
author: Daniel Hladek
---
2021-09-24 14:21:04 +00:00
# Diplomová práca 2022
Názov diplomovej práce: Klasifikácia textu metódami strojového učenia
- [GIT repozitár](https://git.kemt.fei.tuke.sk/mf425hk/dp2022)
## Návrh na zadanie DP
1. Vypracujte prehľad metód klasifikácie textu metódami strojového učenia.
2. Pripravte slovenské trénovacie dáta vo vhodnom formáte a natrénujte viacero modelov pre klasifikáciu textu do viacerých kategórií
3. Navrhnite, vykonajte a vyhodnoťte experimenty pre porovnanie presnosti klasifikácie textu.
4. Navrhnite zlepšenia presnosti klasifikácie textu.
## Diplomový projekt 2021
Stretnutie 15.10.
- trénovanie pomocou LSTM, zatiaľ nie je na gite
- písanie do šabóny práce (cca 35 strán).
Úlohy:
- Doplniť na GIT.
- Zabrániť overfittingu LSTM. Early stopping alebo dropout.
Stretnutie 1.10.
Stav:
- modifikácia trénovacích skriptov na vypisovanie pomocných štatistík.
- Vytvorený GIT repozitár
- Práca na text (cca 22 strán)
- Pridaná referenčná literatúra.
Úlohy:
- [x] Stiahnite si šablónu práce a vložte text čo máte pripravené, vrátane bibliografie.
- Doplňte zdrojové kódy na GITe, tak aby boli opakovateľné.
- [x] Zoznam knižníc zapíšte do súboru requirements.txt.
- Alebo zapíšte zoznam conda balíčkov.
- Vyberte jednu úlohu zo zásobníka a vypracujte ju.
Zásobník úloh:
- Zopakujte experimenty na korpuse scnc. Slovak Categorized News Corpus.
- Vyskúšajte klasifikáciu pomocou neurónových sietí.
- Vytvorte web demo pomocou Docker
- [x] Skúste klasifikáciu pomocou neurónovej siete.
Stretnutie 23.9.
Stav:
- vypracovaný draft diplomovej práce
- pripravené dáta z BeautifulSoup - z rôznych webov (sme.sk)
- vypracované experimenty pomocou scikit-learn na klasifikátoroch:
- multinomial Bayes
- random forest
- support vector machine
- Stochastic Gradient Descent Classifier
- k-neighbours
- decision tree
- vypracované vyhodnotenie pomocou konfúznej matice,
Ciele na ďalšie stretnutie:
- Vytvoríte si repozitár dp2022 na školskom gite, kde dáte dáta, zdrojové kódy aj texty.
- Vybrať jeden odborný článok alebo knihu o klasifikácii textu a vypracujte poznámky.