forked from KEMT/zpwiki
1.7 KiB
1.7 KiB
Maroš Harahus
Diplomový projekt 2020
Doplnenie podpory morfologického značkovania slovenského jazyka do nlp frameworku (spacy alebo flair)
- Úlohy na tento semester:
- Pozrieť jazykové zdroje z https://www.clarin.eu/resource-families/manually-annotated-corpora (MultextEast)
- Oboznámte sa so sadou morfologických značiek Universal Dependencies https://universaldependencies.org/sk/index.html
- Oboznámte sa so sadou SNK https://korpus.sk/morpho.html
- Vytvoriť mapovanie morfologických značiek SNK na Universal Dependencies
- Natrénovať Spacy Model
Stretnutie: 20.2.2020:
Úlohy na ďalšie stretnutie:
- Pozrieť https://spacy.io/usage/training#tagger-parser
- Pozrieť si čo je word embedding - word2vec, fasttext, glove
- Nájsť spôsob ako využiť existujúci model word embedding pri trénovaní https://fasttext.cc/docs/en/pretrained-vectors.html
- Ako natrénovať Spacy POS model?
Návrh na zadanie DP
Názov diplomovej práce: Štatistická morfologická anotácia slovenského jazyka
- Vypracujte prehľad spôsobov morfologickej anotácie slovenského jazyka.
- Pripravte trénovacie dáta vo vhodnom formáte a natrénujte štatistický model morfologického značkovania
- Vyhodnoťte presnosť značkovania a navrhnite možné zlepšenia.
Tímový projekt 2019
Projektové stránky:
- Vypracovať tutoriál pre prácu s nástrojom Spacy pre úlohu zisťovania gramatických značiek (part-of-speech). Súčasťou tutoriálu by mali byť aj odkazy na relevantné zdroje (odborné članky, min. 4).