Maroš Harahus

Diplomový projekt 2020

Zdroje:

Doplnenie podpory morfologického značkovania slovenského jazyka do nlp frameworku (spacy alebo flair)

Úlohy na tento semester:
- Pozrieť jazykové zdroje z https://www.clarin.eu/resource-families/manually-annotated-corpora (MultextEast)
- Oboznámte sa so sadou morfologických značiek Universal Dependencies https://universaldependencies.org/sk/index.html
- Oboznámte sa so sadou SNK https://korpus.sk/morpho.html
- Natrénovať Spacy Model s POS a s pretrénovaním

Virtuálne stretnutie 15.5.2020:

Spustenie exitujúceho skriptu pre trénovanie POS modelu z repozitára spacy-skmodel, problém nastal pri NER dátach.
Vytvorený repozitár

Nové úlohy:

Zásobník úloh:

Využiť korpus Multext East pri trénovaní. Vytvoriť mapovanie Multext Tagov na SNK Tagy.

Revízia 9.4.2020:

Report o doterajšej práci:

Nové úlohy:

pridajte zdrojový text a odkaz na "implementáciu".
natrénujte model podľa https://git.kemt.fei.tuke.sk/dano/spacy-skmodel
skúste pridať "word-embeddingy" z fasttext do trénovania.
vyhodnoťte natrénovaný model - zistite presnosť značkovania. Aký vplyv majú embeddingy na presnosť?
porozmýšľajte ako sa dá presnosť zlepšiť.

Stretnutie 5.3.2020:

Úlohy na ďalšie stretnutie:

zobrať alebo vytvoriť fasttext model
pozrieť sa na spacy pretrain - tam sa bude dať využiť fasttext model
vložiť ho do spacy modelu pomocou spacy pretrain
pozrieť si http://nl.ijs.si/ME/V4/ morfosyntaktická anotácia MULTEXT
porozmýšľať ako využiť korpus "MultextEast" - potrebné vytvoriť mapovanie značiek na SNK Tagset

Poznámka:

Stretnutie: 20.2.2020:

Úlohy na ďalšie stretnutie:

Pozrieť https://spacy.io/usage/training#tagger-parser
Pozrieť si čo je word embedding - word2vec, fasttext, glove
Nájsť spôsob ako využiť existujúci model word embedding pri trénovaní https://fasttext.cc/docs/en/pretrained-vectors.html
Ako natrénovať Spacy POS model?

Názov diplomovej práce: Štatistická morfologická anotácia slovenského jazyka

Vypracujte prehľad spôsobov morfologickej anotácie slovenského jazyka.
Pripravte trénovacie dáta vo vhodnom formáte a natrénujte štatistický model morfologického značkovania
Vyhodnoťte presnosť značkovania a navrhnite možné zlepšenia.

Projektové stránky:

Vypracovať tutoriál pre prácu s nástrojom Spacy pre úlohu zisťovania gramatických značiek (part-of-speech). Súčasťou tutoriálu by mali byť aj odkazy na relevantné zdroje (odborné članky, min. 4).