| .. | ||
| README.md | ||
| title | published | taxonomy | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Márk Fehér | true | 
  | 
Diplomová práca 2022
Názov diplomovej práce: Klasifikácia textu metódami strojového učenia
Návrh na zadanie DP
- Vypracujte prehľad metód klasifikácie textu metódami strojového učenia.
 - Pripravte slovenské trénovacie dáta vo vhodnom formáte a natrénujte viacero modelov pre klasifikáciu textu do viacerých kategórií
 - Navrhnite, vykonajte a vyhodnoťte experimenty pre porovnanie presnosti klasifikácie textu.
 - Navrhnite zlepšenia presnosti klasifikácie textu.
 
18.3.
- Práca na texte pokračuje
 - Podarilo sa spustiť finetning huggingface glue s scnc datasetom.
 
Úlohy:
- Pokračovať v texte.
 - LSTM trénovanie urobené, výsledky sú v práci.
 - Pokúsiť sa urobiť dataset interface na vlastné dáta.
 
4.3.2022
- Stretnutie bolo aj minulý týždeň.
 - LSTM trénovanie beží (skoro ukončené).
 - SlovakBert na colab prvé výsledky cca 65 percent na scnc (asi tam je chyba).
 - Práca na texte pokračuje.
 - Vedúcim dodaný skript na scnc datasets rozhranie
 - Vedúcim dodaný skript na trénovanie run_glue.py
 - Dodaný skript na inštaláciu pytorch a cuda 11.3
 
Úlohy:
- Práca na texte - sumarizácia experimentov do tabuľky
 - Vyskúšať dotrénovanie na idoc pomocou dodaných skriptov.
 - Na trénovanie na pozadí použiť 
tmux a -t 0. 
Diplomový projekt 2021
Stretnutie 3.12.
- Dopracované vyhodnotenie pomocou SCNC. Výsledkom je konfúzna matica a grafy presnosti so štatistickými modelmi.
 - Rozpracovaná klasifikácia LSTM (Keras).
 
Úlohy:
- Pridať klasifikáciu pomocou Huggingface Transformers, model SlovakBert, multilingualBert, alebo aj iné multilinguálne modely.
 - dokončiť LSTM.
 - Pokračovať na textovej časti.
 - Zobrazte aj F1
 
Stretnutie 5.11.2021
- Práca na texte, štúdium literatúry
 - pridané kódy na GIT
 
Úlohy:
- Zopakujte experimenty na korpuse scnc. Slovak Categorized News Corpus.
 - Pokračujte v otvorených úlohách
 - Upravte skripty do opakovateľnej podoby, pripravte dokumentáciu k skriptom.
 
Stretnutie 15.10.
- trénovanie pomocou LSTM, zatiaľ nie je na gite
 - písanie do šabóny práce (cca 35 strán).
 
Úlohy:
- Doplniť na GIT.
 - Zabrániť overfittingu LSTM. Early stopping alebo dropout.
 
Stretnutie 1.10.
Stav:
- modifikácia trénovacích skriptov na vypisovanie pomocných štatistík.
 - Vytvorený GIT repozitár
 - Práca na text (cca 22 strán)
 - Pridaná referenčná literatúra.
 
Úlohy:
- Stiahnite si šablónu práce a vložte text čo máte pripravené, vrátane bibliografie.
 - Doplňte zdrojové kódy na GITe, tak aby boli opakovateľné.
 - Zoznam knižníc zapíšte do súboru requirements.txt.
 - Alebo zapíšte zoznam conda balíčkov.
 - Vyberte jednu úlohu zo zásobníka a vypracujte ju.
 
Zásobník úloh:
- Vyskúšajte klasifikáciu pomocou neurónových sietí.
 - Vytvorte web demo pomocou Docker
 - Skúste klasifikáciu pomocou neurónovej siete.
 
Stretnutie 23.9.
Stav:
- vypracovaný draft diplomovej práce
 - pripravené dáta z BeautifulSoup - z rôznych webov (sme.sk)
 - vypracované experimenty pomocou scikit-learn na klasifikátoroch:
- multinomial Bayes
 - random forest
 - support vector machine
 - Stochastic Gradient Descent Classifier
 - k-neighbours
 - decision tree
 
 - vypracované vyhodnotenie pomocou konfúznej matice,
 
Ciele na ďalšie stretnutie:
- Vytvoríte si repozitár dp2022 na školskom gite, kde dáte dáta, zdrojové kódy aj texty.
 - Vybrať jeden odborný článok alebo knihu o klasifikácii textu a vypracujte poznámky.