forked from KEMT/zpwiki
		
	
		
			
				
	
	
		
			134 lines
		
	
	
		
			3.7 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			134 lines
		
	
	
		
			3.7 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
| ---
 | |
| title: Márk Fehér
 | |
| published: true
 | |
| taxonomy:
 | |
|     category: [dp2022]
 | |
|     tag: [scikit,nlp,klasifikácia]
 | |
|     author: Daniel Hladek
 | |
| ---
 | |
| # Diplomová práca 2022
 | |
| 
 | |
| Názov diplomovej práce: Klasifikácia textu metódami strojového učenia
 | |
| 
 | |
| - [GIT repozitár](https://git.kemt.fei.tuke.sk/mf425hk/dp2022)
 | |
| 
 | |
| ## Návrh na zadanie DP
 | |
| 
 | |
| 1. Vypracujte prehľad metód klasifikácie textu metódami strojového učenia.
 | |
| 2. Pripravte slovenské  trénovacie dáta vo vhodnom formáte a natrénujte viacero modelov pre klasifikáciu textu do viacerých kategórií
 | |
| 3. Navrhnite, vykonajte a vyhodnoťte experimenty pre porovnanie presnosti klasifikácie textu. 
 | |
| 4. Navrhnite zlepšenia presnosti klasifikácie textu.
 | |
| 
 | |
| 18.3.
 | |
| 
 | |
| - Práca na texte pokračuje
 | |
| - Podarilo sa spustiť finetning huggingface glue s scnc datasetom.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Pokračovať v texte.
 | |
| - LSTM trénovanie urobené, výsledky sú v práci.
 | |
| - Pokúsiť sa urobiť dataset interface na vlastné dáta.
 | |
| 
 | |
| 4.3.2022
 | |
| 
 | |
| - Stretnutie bolo aj minulý týždeň.
 | |
| - LSTM trénovanie beží (skoro ukončené).
 | |
| - SlovakBert na colab prvé výsledky cca 65 percent na scnc (asi tam je chyba).
 | |
| - Práca na texte pokračuje.
 | |
| - Vedúcim dodaný skript na scnc datasets rozhranie
 | |
| - Vedúcim dodaný skript na trénovanie run_glue.py 
 | |
| - Dodaný skript na inštaláciu  pytorch a cuda 11.3
 | |
| 
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Práca na texte - sumarizácia experimentov do tabuľky
 | |
| - Vyskúšať dotrénovanie na idoc pomocou dodaných skriptov.
 | |
| - Na trénovanie na pozadí použiť `tmux a -t 0`.
 | |
| 
 | |
| ## Diplomový projekt 2021
 | |
| 
 | |
| Stretnutie 3.12.
 | |
| 
 | |
| - Dopracované vyhodnotenie pomocou SCNC. Výsledkom je konfúzna matica a grafy presnosti so štatistickými modelmi.
 | |
| - Rozpracovaná klasifikácia LSTM (Keras).
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Pridať klasifikáciu pomocou Huggingface Transformers, model SlovakBert, multilingualBert, alebo aj iné multilinguálne modely.
 | |
| - dokončiť LSTM.
 | |
| - Pokračovať na textovej časti.
 | |
| - Zobrazte aj F1
 | |
| 
 | |
| 
 | |
| Stretnutie 5.11.2021
 | |
| 
 | |
| - Práca na texte, štúdium literatúry
 | |
| - pridané kódy na GIT
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Zopakujte experimenty na korpuse scnc. Slovak Categorized News Corpus.
 | |
| - Pokračujte v otvorených úlohách
 | |
| - Upravte skripty do opakovateľnej podoby, pripravte dokumentáciu k skriptom.
 | |
| 
 | |
| 
 | |
| Stretnutie 15.10.
 | |
| 
 | |
| - trénovanie pomocou LSTM, zatiaľ nie je na gite
 | |
| - písanie do šabóny práce (cca 35 strán).
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Doplniť na GIT.
 | |
| - Zabrániť overfittingu LSTM. Early stopping alebo dropout.
 | |
| 
 | |
| Stretnutie 1.10.
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - modifikácia trénovacích skriptov na vypisovanie pomocných štatistík.
 | |
| - Vytvorený GIT repozitár
 | |
| - Práca na text (cca 22 strán)
 | |
| - Pridaná referenčná literatúra.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| -  [x] Stiahnite si šablónu práce a vložte text čo máte pripravené, vrátane bibliografie.
 | |
| - [x] Doplňte zdrojové kódy na GITe, tak aby boli opakovateľné.
 | |
| - [x] Zoznam knižníc zapíšte do súboru requirements.txt. 
 | |
| - Alebo zapíšte zoznam conda balíčkov.
 | |
| - Vyberte jednu úlohu zo zásobníka a vypracujte ju.
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Vyskúšajte klasifikáciu pomocou neurónových sietí.
 | |
| - Vytvorte web demo pomocou Docker
 | |
| - [x] Skúste klasifikáciu pomocou neurónovej siete. 
 | |
| 
 | |
| 
 | |
| 
 | |
| 
 | |
| Stretnutie 23.9.
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - vypracovaný draft diplomovej práce
 | |
| - pripravené dáta z BeautifulSoup - z rôznych webov (sme.sk) 
 | |
| - vypracované experimenty pomocou scikit-learn na klasifikátoroch:
 | |
|     - multinomial Bayes
 | |
|     - random forest
 | |
|     - support vector machine
 | |
|     - Stochastic Gradient Descent Classifier
 | |
|     - k-neighbours
 | |
|     - decision tree
 | |
| - vypracované vyhodnotenie pomocou konfúznej matice,
 | |
| 
 | |
| 
 | |
| Ciele na ďalšie stretnutie:
 | |
| 
 | |
| - Vytvoríte si repozitár dp2022 na školskom gite, kde dáte dáta, zdrojové kódy aj texty. 
 | |
| - Vybrať jeden odborný článok alebo knihu o klasifikácii textu a vypracujte poznámky.
 | |
| 
 |