2021-09-23 07:49:04 +00:00
|
|
|
---
|
|
|
|
title: Márk Fehér
|
|
|
|
published: true
|
|
|
|
taxonomy:
|
|
|
|
category: [dp2022]
|
|
|
|
tag: [scikit,nlp,klasifikácia]
|
|
|
|
author: Daniel Hladek
|
|
|
|
---
|
2021-09-24 14:21:04 +00:00
|
|
|
# Diplomová práca 2022
|
2021-09-23 07:49:04 +00:00
|
|
|
|
|
|
|
Názov diplomovej práce: Klasifikácia textu metódami strojového učenia
|
|
|
|
|
2021-10-01 10:58:48 +00:00
|
|
|
- [GIT repozitár](https://git.kemt.fei.tuke.sk/mf425hk/dp2022)
|
2021-09-23 07:49:04 +00:00
|
|
|
|
|
|
|
## Návrh na zadanie DP
|
|
|
|
|
|
|
|
1. Vypracujte prehľad metód klasifikácie textu metódami strojového učenia.
|
|
|
|
2. Pripravte slovenské trénovacie dáta vo vhodnom formáte a natrénujte viacero modelov pre klasifikáciu textu do viacerých kategórií
|
|
|
|
3. Navrhnite, vykonajte a vyhodnoťte experimenty pre porovnanie presnosti klasifikácie textu.
|
|
|
|
4. Navrhnite zlepšenia presnosti klasifikácie textu.
|
|
|
|
|
2021-09-23 07:58:56 +00:00
|
|
|
|
2022-03-04 08:10:09 +00:00
|
|
|
4.3.2022
|
|
|
|
|
|
|
|
- Stretnutie bolo aj minulý týždeň.
|
|
|
|
- LSTM trénovanie beží (skoro ukončené).
|
|
|
|
- SlovakBert na colab prvé výsledky cca 65 percent na scnc (asi tam je chyba).
|
|
|
|
- Práca na texte pokračuje.
|
|
|
|
- Vedúcim dodaný skript na scnc datasets rozhranie
|
|
|
|
- Vedúcim dodaný skript na trénovanie run_glue.py
|
|
|
|
- Dodaný skript na inštaláciu pytorch a cuda 11.3
|
|
|
|
|
|
|
|
|
|
|
|
Úlohy:
|
|
|
|
|
|
|
|
- Práca na texte - sumarizácia experimentov do tabuľky
|
|
|
|
- Vyskúšať dotrénovanie na idoc pomocou dodaných skriptov.
|
|
|
|
- Na trénovanie na pozadí použiť `tmux a -t 0`.
|
|
|
|
|
2021-09-23 07:49:04 +00:00
|
|
|
## Diplomový projekt 2021
|
2021-09-23 07:54:04 +00:00
|
|
|
|
2021-12-03 09:27:46 +00:00
|
|
|
Stretnutie 3.12.
|
|
|
|
|
|
|
|
- Dopracované vyhodnotenie pomocou SCNC. Výsledkom je konfúzna matica a grafy presnosti so štatistickými modelmi.
|
|
|
|
- Rozpracovaná klasifikácia LSTM (Keras).
|
|
|
|
|
|
|
|
Úlohy:
|
|
|
|
|
|
|
|
- Pridať klasifikáciu pomocou Huggingface Transformers, model SlovakBert, multilingualBert, alebo aj iné multilinguálne modely.
|
|
|
|
- dokončiť LSTM.
|
|
|
|
- Pokračovať na textovej časti.
|
2021-12-03 09:29:40 +00:00
|
|
|
- Zobrazte aj F1
|
2021-12-03 09:27:46 +00:00
|
|
|
|
|
|
|
|
2021-11-05 09:55:36 +00:00
|
|
|
Stretnutie 5.11.2021
|
|
|
|
|
|
|
|
- Práca na texte, štúdium literatúry
|
|
|
|
- pridané kódy na GIT
|
|
|
|
|
|
|
|
Úlohy:
|
|
|
|
|
|
|
|
- Zopakujte experimenty na korpuse scnc. Slovak Categorized News Corpus.
|
|
|
|
- Pokračujte v otvorených úlohách
|
2021-11-05 09:57:29 +00:00
|
|
|
- Upravte skripty do opakovateľnej podoby, pripravte dokumentáciu k skriptom.
|
2021-11-05 09:55:36 +00:00
|
|
|
|
|
|
|
|
2021-10-15 10:17:33 +00:00
|
|
|
Stretnutie 15.10.
|
|
|
|
|
|
|
|
- trénovanie pomocou LSTM, zatiaľ nie je na gite
|
|
|
|
- písanie do šabóny práce (cca 35 strán).
|
|
|
|
|
|
|
|
Úlohy:
|
|
|
|
|
|
|
|
- Doplniť na GIT.
|
|
|
|
- Zabrániť overfittingu LSTM. Early stopping alebo dropout.
|
|
|
|
|
2021-10-01 10:58:06 +00:00
|
|
|
Stretnutie 1.10.
|
|
|
|
|
|
|
|
Stav:
|
|
|
|
|
|
|
|
- modifikácia trénovacích skriptov na vypisovanie pomocných štatistík.
|
2021-10-01 10:59:51 +00:00
|
|
|
- Vytvorený GIT repozitár
|
2021-10-01 11:20:03 +00:00
|
|
|
- Práca na text (cca 22 strán)
|
2021-10-01 10:59:51 +00:00
|
|
|
- Pridaná referenčná literatúra.
|
2021-10-01 10:58:06 +00:00
|
|
|
|
2021-10-01 11:20:03 +00:00
|
|
|
Úlohy:
|
|
|
|
|
2021-10-15 10:17:33 +00:00
|
|
|
- [x] Stiahnite si šablónu práce a vložte text čo máte pripravené, vrátane bibliografie.
|
2021-11-05 09:55:36 +00:00
|
|
|
- [x] Doplňte zdrojové kódy na GITe, tak aby boli opakovateľné.
|
2021-10-15 10:17:33 +00:00
|
|
|
- [x] Zoznam knižníc zapíšte do súboru requirements.txt.
|
2021-10-01 11:20:03 +00:00
|
|
|
- Alebo zapíšte zoznam conda balíčkov.
|
2021-10-01 11:23:55 +00:00
|
|
|
- Vyberte jednu úlohu zo zásobníka a vypracujte ju.
|
2021-10-01 11:20:03 +00:00
|
|
|
|
|
|
|
Zásobník úloh:
|
|
|
|
|
|
|
|
- Vyskúšajte klasifikáciu pomocou neurónových sietí.
|
|
|
|
- Vytvorte web demo pomocou Docker
|
2021-10-15 10:17:33 +00:00
|
|
|
- [x] Skúste klasifikáciu pomocou neurónovej siete.
|
2021-10-01 11:20:03 +00:00
|
|
|
|
|
|
|
|
|
|
|
|
2021-10-01 10:58:06 +00:00
|
|
|
|
|
|
|
Stretnutie 23.9.
|
2021-09-23 07:54:04 +00:00
|
|
|
|
|
|
|
Stav:
|
|
|
|
|
|
|
|
- vypracovaný draft diplomovej práce
|
|
|
|
- pripravené dáta z BeautifulSoup - z rôznych webov (sme.sk)
|
|
|
|
- vypracované experimenty pomocou scikit-learn na klasifikátoroch:
|
|
|
|
- multinomial Bayes
|
|
|
|
- random forest
|
|
|
|
- support vector machine
|
|
|
|
- Stochastic Gradient Descent Classifier
|
|
|
|
- k-neighbours
|
|
|
|
- decision tree
|
|
|
|
- vypracované vyhodnotenie pomocou konfúznej matice,
|
2021-09-23 07:58:56 +00:00
|
|
|
|
|
|
|
|
|
|
|
Ciele na ďalšie stretnutie:
|
|
|
|
|
|
|
|
- Vytvoríte si repozitár dp2022 na školskom gite, kde dáte dáta, zdrojové kódy aj texty.
|
|
|
|
- Vybrať jeden odborný článok alebo knihu o klasifikácii textu a vypracujte poznámky.
|
|
|
|
|