# Maroš Harahus ## Diplomový projekt 2020 Zdroje: - [Jazykové zdroje](/topics/resources) Doplnenie podpory morfologického značkovania slovenského jazyka do nlp frameworku (spacy alebo flair) - Úlohy na tento semester: - Pozrieť jazykové zdroje z https://www.clarin.eu/resource-families/manually-annotated-corpora (MultextEast) - Oboznámte sa so sadou morfologických značiek Universal Dependencies https://universaldependencies.org/sk/index.html - Oboznámte sa so sadou SNK https://korpus.sk/morpho.html - Natrénovať Spacy Model s POS a s pretrénovaním Revízia 9.4.2020: Report o doterajšej práci: - naštudovanie Fasttext - implementácia do Spacy - úprava modelu v spacy na rozpoznanie jazyka - snaha o spacy-udpipe pre non-English text Nové úlohy: - pridajte zdrojový text a odkaz na "implementáciu". - natrénujte model podľa https://git.kemt.fei.tuke.sk/dano/spacy-skmodel - skúste pridať "word-embeddingy" z fasttext do trénovania. - vyhodnoťte natrénovaný model - zistite presnosť značkovania. Aký vplyv majú embeddingy na presnosť? - porozmýšľajte ako sa dá presnosť zlepšiť. Stretnutie 5.3.2020: Úlohy na ďalšie stretnutie: - zobrať alebo vytvoriť fasttext model - pozrieť sa na [spacy pretrain](https://spacy.io/api/cli) - tam sa bude dať využiť fasttext model - vložiť ho do spacy modelu pomocou `spacy pretrain` - pozrieť si http://nl.ijs.si/ME/V4/ morfosyntaktická anotácia MULTEXT - porozmýšľať ako využiť korpus "MultextEast" - potrebné vytvoriť mapovanie značiek na SNK Tagset Poznámka: - Aktivovaná Omega - Pozrieť sa na https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/slovak-treebank , aktivovaný prístup - už existuje mapovanie [Universal Dependencie na SNK tagset](https://github.com/explosion/spaCy/blob/master/spacy/lang/sk/tag_map.py) Stretnutie: 20.2.2020: Úlohy na ďalšie stretnutie: - Pozrieť https://spacy.io/usage/training#tagger-parser - Pozrieť si čo je word embedding - word2vec, fasttext, glove - Nájsť spôsob ako využiť existujúci model word embedding pri trénovaní https://fasttext.cc/docs/en/pretrained-vectors.html - Ako natrénovať Spacy POS model? ## Návrh na zadanie DP Názov diplomovej práce: Štatistická morfologická anotácia slovenského jazyka 1. Vypracujte prehľad spôsobov morfologickej anotácie slovenského jazyka. 2. Pripravte trénovacie dáta vo vhodnom formáte a natrénujte štatistický model morfologického značkovania 3. Vyhodnoťte presnosť značkovania a navrhnite možné zlepšenia. ## Tímový projekt 2019 Projektové stránky: - [Spracovanie prirodzeného jazyka](/topics/nlp) - [Python](/topics/python) - [Podpora slovenčiny v knižnici Spacy](/topics/spacy) [Spacy tutoriál](./timovy_projekt) - Vypracovať tutoriál pre prácu s nástrojom Spacy pre úlohu zisťovania gramatických značiek (part-of-speech). Súčasťou tutoriálu by mali byť aj odkazy na relevantné zdroje (odborné članky, min. 4).