zpwiki/pages/students/2016/mark_feher/README.md

---
title: Márk Fehér
published: true
taxonomy:
    category: [dp2022]
    tag: [scikit,nlp,klasifikácia]
    author: Daniel Hladek
---
# Diplomová práca 2022

Názov diplomovej práce: Klasifikácia textu metódami strojového učenia

- [GIT repozitár](https://git.kemt.fei.tuke.sk/mf425hk/dp2022)

## Návrh na zadanie DP

1. Vypracujte prehľad metód klasifikácie textu metódami strojového učenia.
2. Pripravte slovenské  trénovacie dáta vo vhodnom formáte a natrénujte viacero modelov pre klasifikáciu textu do viacerých kategórií
3. Navrhnite, vykonajte a vyhodnoťte experimenty pre porovnanie presnosti klasifikácie textu. 
4. Navrhnite zlepšenia presnosti klasifikácie textu.

18.3.

- Práca na texte pokračuje
- Podarilo sa spustiť finetning huggingface glue s scnc datasetom.

Úlohy:

- Pokračovať v texte.
- LSTM trénovanie urobené, výsledky sú v práci.
- Pokúsiť sa urobiť dataset interface na vlastné dáta.

4.3.2022

- Stretnutie bolo aj minulý týždeň.
- LSTM trénovanie beží (skoro ukončené).
- SlovakBert na colab prvé výsledky cca 65 percent na scnc (asi tam je chyba).
- Práca na texte pokračuje.
- Vedúcim dodaný skript na scnc datasets rozhranie
- Vedúcim dodaný skript na trénovanie run_glue.py 
- Dodaný skript na inštaláciu  pytorch a cuda 11.3


Úlohy:

- Práca na texte - sumarizácia experimentov do tabuľky
- Vyskúšať dotrénovanie na idoc pomocou dodaných skriptov.
- Na trénovanie na pozadí použiť `tmux a -t 0`.

## Diplomový projekt 2021

Stretnutie 3.12.

- Dopracované vyhodnotenie pomocou SCNC. Výsledkom je konfúzna matica a grafy presnosti so štatistickými modelmi.
- Rozpracovaná klasifikácia LSTM (Keras).

Úlohy:

- Pridať klasifikáciu pomocou Huggingface Transformers, model SlovakBert, multilingualBert, alebo aj iné multilinguálne modely.
- dokončiť LSTM.
- Pokračovať na textovej časti.
- Zobrazte aj F1


Stretnutie 5.11.2021

- Práca na texte, štúdium literatúry
- pridané kódy na GIT

Úlohy:

- Zopakujte experimenty na korpuse scnc. Slovak Categorized News Corpus.
- Pokračujte v otvorených úlohách
- Upravte skripty do opakovateľnej podoby, pripravte dokumentáciu k skriptom.


Stretnutie 15.10.

- trénovanie pomocou LSTM, zatiaľ nie je na gite
- písanie do šabóny práce (cca 35 strán).

Úlohy:

- Doplniť na GIT.
- Zabrániť overfittingu LSTM. Early stopping alebo dropout.

Stretnutie 1.10.

Stav:

- modifikácia trénovacích skriptov na vypisovanie pomocných štatistík.
- Vytvorený GIT repozitár
- Práca na text (cca 22 strán)
- Pridaná referenčná literatúra.

Úlohy:

-  [x] Stiahnite si šablónu práce a vložte text čo máte pripravené, vrátane bibliografie.
- [x] Doplňte zdrojové kódy na GITe, tak aby boli opakovateľné.
- [x] Zoznam knižníc zapíšte do súboru requirements.txt. 
- Alebo zapíšte zoznam conda balíčkov.
- Vyberte jednu úlohu zo zásobníka a vypracujte ju.

Zásobník úloh:

- Vyskúšajte klasifikáciu pomocou neurónových sietí.
- Vytvorte web demo pomocou Docker
- [x] Skúste klasifikáciu pomocou neurónovej siete. 


Stretnutie 23.9.

Stav:

- vypracovaný draft diplomovej práce
- pripravené dáta z BeautifulSoup - z rôznych webov (sme.sk) 
- vypracované experimenty pomocou scikit-learn na klasifikátoroch:
    - multinomial Bayes
    - random forest
    - support vector machine
    - Stochastic Gradient Descent Classifier
    - k-neighbours
    - decision tree
- vypracované vyhodnotenie pomocou konfúznej matice,


Ciele na ďalšie stretnutie:

- Vytvoríte si repozitár dp2022 na školskom gite, kde dáte dáta, zdrojové kódy aj texty. 
- Vybrať jeden odborný článok alebo knihu o klasifikácii textu a vypracujte poznámky.
Add 'pages/students/2016/maros_harahus/mark_feher/README.md' 2021-09-23 07:49:04 +00:00			`---`
			`title: Márk Fehér`
			`published: true`
			`taxonomy:`
			`category: [dp2022]`
			`tag: [scikit,nlp,klasifikácia]`
			`author: Daniel Hladek`
			`---`
zz 2021-09-24 14:21:04 +00:00			`# Diplomová práca 2022`
Add 'pages/students/2016/maros_harahus/mark_feher/README.md' 2021-09-23 07:49:04 +00:00
			`Názov diplomovej práce: Klasifikácia textu metódami strojového učenia`

Update 'pages/students/2016/mark_feher/README.md' 2021-10-01 10:58:48 +00:00			`- [GIT repozitár](https://git.kemt.fei.tuke.sk/mf425hk/dp2022)`
Add 'pages/students/2016/maros_harahus/mark_feher/README.md' 2021-09-23 07:49:04 +00:00
			`## Návrh na zadanie DP`

			`1. Vypracujte prehľad metód klasifikácie textu metódami strojového učenia.`
			`2. Pripravte slovenské trénovacie dáta vo vhodnom formáte a natrénujte viacero modelov pre klasifikáciu textu do viacerých kategórií`
			`3. Navrhnite, vykonajte a vyhodnoťte experimenty pre porovnanie presnosti klasifikácie textu.`
			`4. Navrhnite zlepšenia presnosti klasifikácie textu.`

Update 'pages/students/2016/mark_feher/README.md' 2022-03-18 08:41:47 +00:00			`18.3.`

			`- Práca na texte pokračuje`
			`- Podarilo sa spustiť finetning huggingface glue s scnc datasetom.`

			`Úlohy:`

			`- Pokračovať v texte.`
			`- LSTM trénovanie urobené, výsledky sú v práci.`
			`- Pokúsiť sa urobiť dataset interface na vlastné dáta.`
Update 'pages/students/2016/maros_harahus/mark_feher/README.md' 2021-09-23 07:58:56 +00:00
Update 'pages/students/2016/mark_feher/README.md' 2022-03-04 08:10:09 +00:00			`4.3.2022`

			`- Stretnutie bolo aj minulý týždeň.`
			`- LSTM trénovanie beží (skoro ukončené).`
			`- SlovakBert na colab prvé výsledky cca 65 percent na scnc (asi tam je chyba).`
			`- Práca na texte pokračuje.`
			`- Vedúcim dodaný skript na scnc datasets rozhranie`
			`- Vedúcim dodaný skript na trénovanie run_glue.py`
			`- Dodaný skript na inštaláciu pytorch a cuda 11.3`


			`Úlohy:`

			`- Práca na texte - sumarizácia experimentov do tabuľky`
			`- Vyskúšať dotrénovanie na idoc pomocou dodaných skriptov.`
			- Na trénovanie na pozadí použiť `tmux a -t 0`.

Add 'pages/students/2016/maros_harahus/mark_feher/README.md' 2021-09-23 07:49:04 +00:00			`## Diplomový projekt 2021`
Update 'pages/students/2016/maros_harahus/mark_feher/README.md' 2021-09-23 07:54:04 +00:00
Update 'pages/students/2016/mark_feher/README.md' 2021-12-03 09:27:46 +00:00			`Stretnutie 3.12.`

			`- Dopracované vyhodnotenie pomocou SCNC. Výsledkom je konfúzna matica a grafy presnosti so štatistickými modelmi.`
			`- Rozpracovaná klasifikácia LSTM (Keras).`

			`Úlohy:`

			`- Pridať klasifikáciu pomocou Huggingface Transformers, model SlovakBert, multilingualBert, alebo aj iné multilinguálne modely.`
			`- dokončiť LSTM.`
			`- Pokračovať na textovej časti.`
Update 'pages/students/2016/mark_feher/README.md' 2021-12-03 09:29:40 +00:00			`- Zobrazte aj F1`
Update 'pages/students/2016/mark_feher/README.md' 2021-12-03 09:27:46 +00:00

Update 'pages/students/2016/mark_feher/README.md' 2021-11-05 09:55:36 +00:00			`Stretnutie 5.11.2021`

			`- Práca na texte, štúdium literatúry`
			`- pridané kódy na GIT`

			`Úlohy:`

			`- Zopakujte experimenty na korpuse scnc. Slovak Categorized News Corpus.`
			`- Pokračujte v otvorených úlohách`
Update 'pages/students/2016/mark_feher/README.md' 2021-11-05 09:57:29 +00:00			`- Upravte skripty do opakovateľnej podoby, pripravte dokumentáciu k skriptom.`
Update 'pages/students/2016/mark_feher/README.md' 2021-11-05 09:55:36 +00:00

Update 'pages/students/2016/mark_feher/README.md' 2021-10-15 10:17:33 +00:00			`Stretnutie 15.10.`

			`- trénovanie pomocou LSTM, zatiaľ nie je na gite`
			`- písanie do šabóny práce (cca 35 strán).`

			`Úlohy:`

			`- Doplniť na GIT.`
			`- Zabrániť overfittingu LSTM. Early stopping alebo dropout.`

Update 'pages/students/2016/mark_feher/README.md' 2021-10-01 10:58:06 +00:00			`Stretnutie 1.10.`

			`Stav:`

			`- modifikácia trénovacích skriptov na vypisovanie pomocných štatistík.`
Update 'pages/students/2016/mark_feher/README.md' 2021-10-01 10:59:51 +00:00			`- Vytvorený GIT repozitár`
Update 'pages/students/2016/mark_feher/README.md' 2021-10-01 11:20:03 +00:00			`- Práca na text (cca 22 strán)`
Update 'pages/students/2016/mark_feher/README.md' 2021-10-01 10:59:51 +00:00			`- Pridaná referenčná literatúra.`
Update 'pages/students/2016/mark_feher/README.md' 2021-10-01 10:58:06 +00:00
Update 'pages/students/2016/mark_feher/README.md' 2021-10-01 11:20:03 +00:00			`Úlohy:`

Update 'pages/students/2016/mark_feher/README.md' 2021-10-15 10:17:33 +00:00			`- [x] Stiahnite si šablónu práce a vložte text čo máte pripravené, vrátane bibliografie.`
Update 'pages/students/2016/mark_feher/README.md' 2021-11-05 09:55:36 +00:00			`- [x] Doplňte zdrojové kódy na GITe, tak aby boli opakovateľné.`
Update 'pages/students/2016/mark_feher/README.md' 2021-10-15 10:17:33 +00:00			`- [x] Zoznam knižníc zapíšte do súboru requirements.txt.`
Update 'pages/students/2016/mark_feher/README.md' 2021-10-01 11:20:03 +00:00			`- Alebo zapíšte zoznam conda balíčkov.`
Update 'pages/students/2016/mark_feher/README.md' 2021-10-01 11:23:55 +00:00			`- Vyberte jednu úlohu zo zásobníka a vypracujte ju.`
Update 'pages/students/2016/mark_feher/README.md' 2021-10-01 11:20:03 +00:00
			`Zásobník úloh:`

			`- Vyskúšajte klasifikáciu pomocou neurónových sietí.`
			`- Vytvorte web demo pomocou Docker`
Update 'pages/students/2016/mark_feher/README.md' 2021-10-15 10:17:33 +00:00			`- [x] Skúste klasifikáciu pomocou neurónovej siete.`
Update 'pages/students/2016/mark_feher/README.md' 2021-10-01 11:20:03 +00:00


Update 'pages/students/2016/mark_feher/README.md' 2021-10-01 10:58:06 +00:00
			`Stretnutie 23.9.`
Update 'pages/students/2016/maros_harahus/mark_feher/README.md' 2021-09-23 07:54:04 +00:00
			`Stav:`

			`- vypracovaný draft diplomovej práce`
			`- pripravené dáta z BeautifulSoup - z rôznych webov (sme.sk)`
			`- vypracované experimenty pomocou scikit-learn na klasifikátoroch:`
			`- multinomial Bayes`
			`- random forest`
			`- support vector machine`
			`- Stochastic Gradient Descent Classifier`
			`- k-neighbours`
			`- decision tree`
			`- vypracované vyhodnotenie pomocou konfúznej matice,`
Update 'pages/students/2016/maros_harahus/mark_feher/README.md' 2021-09-23 07:58:56 +00:00

			`Ciele na ďalšie stretnutie:`

			`- Vytvoríte si repozitár dp2022 na školskom gite, kde dáte dáta, zdrojové kódy aj texty.`
			`- Vybrať jeden odborný článok alebo knihu o klasifikácii textu a vypracujte poznámky.`