History

dano 42a9e21af5 Update 'pages/students/2016/maros_harahus/README.md'		2020-09-25 07:37:01 +00:00
..
timovy_projekt	Aktualizovat „pages/students/2016/maros_harahus/timovy_projekt/README.md“	2019-12-21 19:18:39 +00:00
README.md	Update 'pages/students/2016/maros_harahus/README.md'	2020-09-25 07:37:01 +00:00

Maroš Harahus

Diplomový projekt 2 2020

Stretnutie 25.9.2020

Zdroje:

Doplnenie podpory morfologického značkovania slovenského jazyka do nlp frameworku (spacy alebo flair)

Úlohy na tento semester:
- Pozrieť jazykové zdroje z https://www.clarin.eu/resource-families/manually-annotated-corpora (MultextEast)
- Oboznámte sa so sadou morfologických značiek Universal Dependencies https://universaldependencies.org/sk/index.html
- Oboznámte sa so sadou SNK https://korpus.sk/morpho.html
- Natrénovať Spacy Model s POS a s pretrénovaním

Stretnutie 23.6.2020:

Stretnutie 12.6.2020:

Pretrénovanie Fasttext a trénovanie POS Spacy modelu - ešte treba vylepšiť presnosť

K zápočtu:

Finálny okomentovaný skript pre trénovanie POS modelu podľa Slovak Treebank s pretrénovaním Fasttext.
Ak sa dá tak pri trénovaní využite GPU
Zistite výslednú presnosť, mala by byť nad 80 percent.
Porovnajte s presnosťou bez pretrénovania.

Zásobník úloh:

Preštudovať literatúru na tému "pretrain" a "word embedding"
- Healthcare NERModelsUsing Language Model Pretraining
- Design and implementation of an open source Greek POS Tagger and Entity Recognizer using spaCy
- https://arxiv.org/abs/1909.00505
- https://arxiv.org/abs/1607.04606
- LSTM, recurrent neural network,
Vykonať viacero experimentov s pretrénovaním - rôzne modely, rôzne veľkosti adaptačných dát a zostaviť tabuľku
Opísať pretrénovanie, zhrnúť vplyv pretrénovania na trénovanie v krátkom článku cca 10 strán.
skúsiť prezentovať na lokálnej konferencii, (Data, Znalosti and WIKT) alebo fakultný zborník (krátka verzia diplomovky).
Využiť korpus Multext East pri trénovaní. Vytvoriť mapovanie Multext Tagov na SNK Tagy.

Virtuálne stretnutie 15.5.2020:

Spustenie exitujúceho skriptu pre trénovanie POS modelu z repozitára spacy-skmodel, problém nastal pri NER dátach.
Vytvorený repozitár

Nové úlohy:

Revízia 9.4.2020:

Report o doterajšej práci:

Nové úlohy:

pridajte zdrojový text a odkaz na "implementáciu".
natrénujte model podľa https://git.kemt.fei.tuke.sk/dano/spacy-skmodel
skúste pridať "word-embeddingy" z fasttext do trénovania.
vyhodnoťte natrénovaný model - zistite presnosť značkovania. Aký vplyv majú embeddingy na presnosť?
porozmýšľajte ako sa dá presnosť zlepšiť.

Stretnutie 5.3.2020:

Úlohy na ďalšie stretnutie:

zobrať alebo vytvoriť fasttext model
pozrieť sa na spacy pretrain - tam sa bude dať využiť fasttext model
vložiť ho do spacy modelu pomocou spacy pretrain
pozrieť si http://nl.ijs.si/ME/V4/ morfosyntaktická anotácia MULTEXT
porozmýšľať ako využiť korpus "MultextEast" - potrebné vytvoriť mapovanie značiek na SNK Tagset

Poznámka:

Stretnutie: 20.2.2020:

Úlohy na ďalšie stretnutie:

Pozrieť https://spacy.io/usage/training#tagger-parser
Pozrieť si čo je word embedding - word2vec, fasttext, glove
Nájsť spôsob ako využiť existujúci model word embedding pri trénovaní https://fasttext.cc/docs/en/pretrained-vectors.html
Ako natrénovať Spacy POS model?

Názov diplomovej práce: Štatistická morfologická anotácia slovenského jazyka

Vypracujte prehľad spôsobov morfologickej anotácie slovenského jazyka.
Pripravte trénovacie dáta vo vhodnom formáte a natrénujte štatistický model morfologického značkovania
Vyhodnoťte presnosť značkovania a navrhnite možné zlepšenia.

Projektové stránky:

Vypracovať tutoriál pre prácu s nástrojom Spacy pre úlohu zisťovania gramatických značiek (part-of-speech). Súčasťou tutoriálu by mali byť aj odkazy na relevantné zdroje (odborné članky, min. 4).