forked from KEMT/zpwiki
		
	| .. | ||
| timovy_projekt | ||
| README.md | ||
Maroš Harahus
Diplomový projekt 2 2020
Stretnutie 25.9.2020
Zvážiť publikovanie na: http://conf.uni-obuda.hu/sami2021/index.html
- najprv napísať po slovensky, potom sa to preloží
 - opísať experimenty
 
Diplomový projekt 2020
Zdroje:
Doplnenie podpory morfologického značkovania slovenského jazyka do nlp frameworku (spacy alebo flair)
- Úlohy na tento semester:
- Pozrieť jazykové zdroje z https://www.clarin.eu/resource-families/manually-annotated-corpora (MultextEast)
 - Oboznámte sa so sadou morfologických značiek Universal Dependencies https://universaldependencies.org/sk/index.html
 - Oboznámte sa so sadou SNK https://korpus.sk/morpho.html
 - Natrénovať Spacy Model s POS a s pretrénovaním
 
 
Stretnutie 23.6.2020:
- Výsledok: Skript na trénovanie Spacy POS
 
Stretnutie 12.6.2020:
- Pretrénovanie Fasttext a trénovanie POS Spacy modelu - ešte treba vylepšiť presnosť
 
K zápočtu:
- Finálny okomentovaný skript pre trénovanie POS modelu podľa Slovak Treebank s pretrénovaním Fasttext.
 - Ak sa dá tak pri trénovaní využite GPU
 - Zistite výslednú presnosť, mala by byť nad 80 percent.
 - Porovnajte s presnosťou bez pretrénovania.
 
Zásobník úloh:
- Preštudovať literatúru na tému "pretrain" a "word embedding"
 - Vykonať viacero experimentov s pretrénovaním - rôzne modely, rôzne veľkosti adaptačných dát a zostaviť tabuľku
 - Opísať pretrénovanie, zhrnúť vplyv pretrénovania na trénovanie v krátkom článku cca 10 strán.
 - skúsiť prezentovať na lokálnej konferencii, (Data, Znalosti and WIKT) alebo fakultný zborník (krátka verzia diplomovky).
 - Využiť korpus Multext East pri trénovaní. Vytvoriť mapovanie Multext Tagov na SNK Tagy.
 
Virtuálne stretnutie 15.5.2020:
- Spustenie exitujúceho skriptu pre trénovanie POS modelu z repozitára spacy-skmodel, problém nastal pri NER dátach.
 - Vytvorený repozitár
 
Nové úlohy:
- Podrobne preštudovať a realizovať spacy pretrain
 - Blog o Spacy pretrain
 
Revízia 9.4.2020:
Report o doterajšej práci:
- naštudovanie Fasttext
 - implementácia do Spacy
 - úprava modelu v spacy na rozpoznanie jazyka
 - snaha o spacy-udpipe pre non-English text
 
Nové úlohy:
- pridajte zdrojový text a odkaz na "implementáciu".
 - natrénujte model podľa https://git.kemt.fei.tuke.sk/dano/spacy-skmodel
 - skúste pridať "word-embeddingy" z fasttext do trénovania.
 - vyhodnoťte natrénovaný model - zistite presnosť značkovania. Aký vplyv majú embeddingy na presnosť?
 - porozmýšľajte ako sa dá presnosť zlepšiť.
 
Stretnutie 5.3.2020:
Úlohy na ďalšie stretnutie:
- zobrať alebo vytvoriť fasttext model
 - pozrieť sa na spacy pretrain - tam sa bude dať využiť fasttext model
 - vložiť ho do spacy modelu pomocou 
spacy pretrain - pozrieť si http://nl.ijs.si/ME/V4/ morfosyntaktická anotácia MULTEXT
 - porozmýšľať ako využiť korpus "MultextEast" - potrebné vytvoriť mapovanie značiek na SNK Tagset
 
Poznámka:
- Aktivovaná Omega
 - Pozrieť sa na https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/slovak-treebank , aktivovaný prístup
 - už existuje mapovanie Universal Dependencie na SNK tagset
 
Stretnutie: 20.2.2020:
Úlohy na ďalšie stretnutie:
- Pozrieť https://spacy.io/usage/training#tagger-parser
 - Pozrieť si čo je word embedding - word2vec, fasttext, glove
 - Nájsť spôsob ako využiť existujúci model word embedding pri trénovaní https://fasttext.cc/docs/en/pretrained-vectors.html
 - Ako natrénovať Spacy POS model?
 
Návrh na zadanie DP
Názov diplomovej práce: Štatistická morfologická anotácia slovenského jazyka
- Vypracujte prehľad spôsobov morfologickej anotácie slovenského jazyka.
 - Pripravte trénovacie dáta vo vhodnom formáte a natrénujte štatistický model morfologického značkovania
 - Vyhodnoťte presnosť značkovania a navrhnite možné zlepšenia.
 
Tímový projekt 2019
Projektové stránky:
- Vypracovať tutoriál pre prácu s nástrojom Spacy pre úlohu zisťovania gramatických značiek (part-of-speech). Súčasťou tutoriálu by mali byť aj odkazy na relevantné zdroje (odborné članky, min. 4).