---
title: Márk Fehér
published: true
taxonomy:
    category: [dp2022]
    tag: [scikit,nlp,klasifikácia]
    author: Daniel Hladek
---
# Diplomová práca 2022

Názov diplomovej práce: Klasifikácia textu metódami strojového učenia

- [GIT repozitár](https://git.kemt.fei.tuke.sk/mf425hk/dp2022)

## Návrh na zadanie DP

1. Vypracujte prehľad metód klasifikácie textu metódami strojového učenia.
2. Pripravte slovenské  trénovacie dáta vo vhodnom formáte a natrénujte viacero modelov pre klasifikáciu textu do viacerých kategórií
3. Navrhnite, vykonajte a vyhodnoťte experimenty pre porovnanie presnosti klasifikácie textu. 
4. Navrhnite zlepšenia presnosti klasifikácie textu.

18.3.

- Práca na texte pokračuje
- Podarilo sa spustiť finetning huggingface glue s scnc datasetom.

Úlohy:

- Pokračovať v texte.
- LSTM trénovanie urobené, výsledky sú v práci.
- Pokúsiť sa urobiť dataset interface na vlastné dáta.

4.3.2022

- Stretnutie bolo aj minulý týždeň.
- LSTM trénovanie beží (skoro ukončené).
- SlovakBert na colab prvé výsledky cca 65 percent na scnc (asi tam je chyba).
- Práca na texte pokračuje.
- Vedúcim dodaný skript na scnc datasets rozhranie
- Vedúcim dodaný skript na trénovanie run_glue.py 
- Dodaný skript na inštaláciu  pytorch a cuda 11.3


Úlohy:

- Práca na texte - sumarizácia experimentov do tabuľky
- Vyskúšať dotrénovanie na idoc pomocou dodaných skriptov.
- Na trénovanie na pozadí použiť `tmux a -t 0`.

## Diplomový projekt 2021

Stretnutie 3.12.

- Dopracované vyhodnotenie pomocou SCNC. Výsledkom je konfúzna matica a grafy presnosti so štatistickými modelmi.
- Rozpracovaná klasifikácia LSTM (Keras).

Úlohy:

- Pridať klasifikáciu pomocou Huggingface Transformers, model SlovakBert, multilingualBert, alebo aj iné multilinguálne modely.
- dokončiť LSTM.
- Pokračovať na textovej časti.
- Zobrazte aj F1


Stretnutie 5.11.2021

- Práca na texte, štúdium literatúry
- pridané kódy na GIT

Úlohy:

- Zopakujte experimenty na korpuse scnc. Slovak Categorized News Corpus.
- Pokračujte v otvorených úlohách
- Upravte skripty do opakovateľnej podoby, pripravte dokumentáciu k skriptom.


Stretnutie 15.10.

- trénovanie pomocou LSTM, zatiaľ nie je na gite
- písanie do šabóny práce (cca 35 strán).

Úlohy:

- Doplniť na GIT.
- Zabrániť overfittingu LSTM. Early stopping alebo dropout.

Stretnutie 1.10.

Stav:

- modifikácia trénovacích skriptov na vypisovanie pomocných štatistík.
- Vytvorený GIT repozitár
- Práca na text (cca 22 strán)
- Pridaná referenčná literatúra.

Úlohy:

-  [x] Stiahnite si šablónu práce a vložte text čo máte pripravené, vrátane bibliografie.
- [x] Doplňte zdrojové kódy na GITe, tak aby boli opakovateľné.
- [x] Zoznam knižníc zapíšte do súboru requirements.txt. 
- Alebo zapíšte zoznam conda balíčkov.
- Vyberte jednu úlohu zo zásobníka a vypracujte ju.

Zásobník úloh:

- Vyskúšajte klasifikáciu pomocou neurónových sietí.
- Vytvorte web demo pomocou Docker
- [x] Skúste klasifikáciu pomocou neurónovej siete. 




Stretnutie 23.9.

Stav:

- vypracovaný draft diplomovej práce
- pripravené dáta z BeautifulSoup - z rôznych webov (sme.sk) 
- vypracované experimenty pomocou scikit-learn na klasifikátoroch:
    - multinomial Bayes
    - random forest
    - support vector machine
    - Stochastic Gradient Descent Classifier
    - k-neighbours
    - decision tree
- vypracované vyhodnotenie pomocou konfúznej matice,


Ciele na ďalšie stretnutie:

- Vytvoríte si repozitár dp2022 na školskom gite, kde dáte dáta, zdrojové kódy aj texty. 
- Vybrať jeden odborný článok alebo knihu o klasifikácii textu a vypracujte poznámky.