forked from KEMT/zpwiki
		
	
		
			
				
	
	
		
			134 lines
		
	
	
		
			3.7 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			134 lines
		
	
	
		
			3.7 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
---
 | 
						|
title: Márk Fehér
 | 
						|
published: true
 | 
						|
taxonomy:
 | 
						|
    category: [dp2022]
 | 
						|
    tag: [scikit,nlp,klasifikácia]
 | 
						|
    author: Daniel Hladek
 | 
						|
---
 | 
						|
# Diplomová práca 2022
 | 
						|
 | 
						|
Názov diplomovej práce: Klasifikácia textu metódami strojového učenia
 | 
						|
 | 
						|
- [GIT repozitár](https://git.kemt.fei.tuke.sk/mf425hk/dp2022)
 | 
						|
 | 
						|
## Návrh na zadanie DP
 | 
						|
 | 
						|
1. Vypracujte prehľad metód klasifikácie textu metódami strojového učenia.
 | 
						|
2. Pripravte slovenské  trénovacie dáta vo vhodnom formáte a natrénujte viacero modelov pre klasifikáciu textu do viacerých kategórií
 | 
						|
3. Navrhnite, vykonajte a vyhodnoťte experimenty pre porovnanie presnosti klasifikácie textu. 
 | 
						|
4. Navrhnite zlepšenia presnosti klasifikácie textu.
 | 
						|
 | 
						|
18.3.
 | 
						|
 | 
						|
- Práca na texte pokračuje
 | 
						|
- Podarilo sa spustiť finetning huggingface glue s scnc datasetom.
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Pokračovať v texte.
 | 
						|
- LSTM trénovanie urobené, výsledky sú v práci.
 | 
						|
- Pokúsiť sa urobiť dataset interface na vlastné dáta.
 | 
						|
 | 
						|
4.3.2022
 | 
						|
 | 
						|
- Stretnutie bolo aj minulý týždeň.
 | 
						|
- LSTM trénovanie beží (skoro ukončené).
 | 
						|
- SlovakBert na colab prvé výsledky cca 65 percent na scnc (asi tam je chyba).
 | 
						|
- Práca na texte pokračuje.
 | 
						|
- Vedúcim dodaný skript na scnc datasets rozhranie
 | 
						|
- Vedúcim dodaný skript na trénovanie run_glue.py 
 | 
						|
- Dodaný skript na inštaláciu  pytorch a cuda 11.3
 | 
						|
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Práca na texte - sumarizácia experimentov do tabuľky
 | 
						|
- Vyskúšať dotrénovanie na idoc pomocou dodaných skriptov.
 | 
						|
- Na trénovanie na pozadí použiť `tmux a -t 0`.
 | 
						|
 | 
						|
## Diplomový projekt 2021
 | 
						|
 | 
						|
Stretnutie 3.12.
 | 
						|
 | 
						|
- Dopracované vyhodnotenie pomocou SCNC. Výsledkom je konfúzna matica a grafy presnosti so štatistickými modelmi.
 | 
						|
- Rozpracovaná klasifikácia LSTM (Keras).
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Pridať klasifikáciu pomocou Huggingface Transformers, model SlovakBert, multilingualBert, alebo aj iné multilinguálne modely.
 | 
						|
- dokončiť LSTM.
 | 
						|
- Pokračovať na textovej časti.
 | 
						|
- Zobrazte aj F1
 | 
						|
 | 
						|
 | 
						|
Stretnutie 5.11.2021
 | 
						|
 | 
						|
- Práca na texte, štúdium literatúry
 | 
						|
- pridané kódy na GIT
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Zopakujte experimenty na korpuse scnc. Slovak Categorized News Corpus.
 | 
						|
- Pokračujte v otvorených úlohách
 | 
						|
- Upravte skripty do opakovateľnej podoby, pripravte dokumentáciu k skriptom.
 | 
						|
 | 
						|
 | 
						|
Stretnutie 15.10.
 | 
						|
 | 
						|
- trénovanie pomocou LSTM, zatiaľ nie je na gite
 | 
						|
- písanie do šabóny práce (cca 35 strán).
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Doplniť na GIT.
 | 
						|
- Zabrániť overfittingu LSTM. Early stopping alebo dropout.
 | 
						|
 | 
						|
Stretnutie 1.10.
 | 
						|
 | 
						|
Stav:
 | 
						|
 | 
						|
- modifikácia trénovacích skriptov na vypisovanie pomocných štatistík.
 | 
						|
- Vytvorený GIT repozitár
 | 
						|
- Práca na text (cca 22 strán)
 | 
						|
- Pridaná referenčná literatúra.
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
-  [x] Stiahnite si šablónu práce a vložte text čo máte pripravené, vrátane bibliografie.
 | 
						|
- [x] Doplňte zdrojové kódy na GITe, tak aby boli opakovateľné.
 | 
						|
- [x] Zoznam knižníc zapíšte do súboru requirements.txt. 
 | 
						|
- Alebo zapíšte zoznam conda balíčkov.
 | 
						|
- Vyberte jednu úlohu zo zásobníka a vypracujte ju.
 | 
						|
 | 
						|
Zásobník úloh:
 | 
						|
 | 
						|
- Vyskúšajte klasifikáciu pomocou neurónových sietí.
 | 
						|
- Vytvorte web demo pomocou Docker
 | 
						|
- [x] Skúste klasifikáciu pomocou neurónovej siete. 
 | 
						|
 | 
						|
 | 
						|
 | 
						|
 | 
						|
Stretnutie 23.9.
 | 
						|
 | 
						|
Stav:
 | 
						|
 | 
						|
- vypracovaný draft diplomovej práce
 | 
						|
- pripravené dáta z BeautifulSoup - z rôznych webov (sme.sk) 
 | 
						|
- vypracované experimenty pomocou scikit-learn na klasifikátoroch:
 | 
						|
    - multinomial Bayes
 | 
						|
    - random forest
 | 
						|
    - support vector machine
 | 
						|
    - Stochastic Gradient Descent Classifier
 | 
						|
    - k-neighbours
 | 
						|
    - decision tree
 | 
						|
- vypracované vyhodnotenie pomocou konfúznej matice,
 | 
						|
 | 
						|
 | 
						|
Ciele na ďalšie stretnutie:
 | 
						|
 | 
						|
- Vytvoríte si repozitár dp2022 na školskom gite, kde dáte dáta, zdrojové kódy aj texty. 
 | 
						|
- Vybrať jeden odborný článok alebo knihu o klasifikácii textu a vypracujte poznámky.
 | 
						|
 |