89 lines
3.1 KiB
Markdown
89 lines
3.1 KiB
Markdown
# Maroš Harahus
|
|
## Diplomový projekt 2020
|
|
|
|
Zdroje:
|
|
|
|
- [Jazykové zdroje](/topics/resources)
|
|
|
|
|
|
Doplnenie podpory morfologického značkovania slovenského jazyka do nlp frameworku (spacy alebo flair)
|
|
|
|
- Úlohy na tento semester:
|
|
- Pozrieť jazykové zdroje z https://www.clarin.eu/resource-families/manually-annotated-corpora (MultextEast)
|
|
- Oboznámte sa so sadou morfologických značiek Universal Dependencies https://universaldependencies.org/sk/index.html
|
|
- Oboznámte sa so sadou SNK https://korpus.sk/morpho.html
|
|
- Natrénovať Spacy Model s POS a s pretrénovaním
|
|
|
|
Revízia 13.5.2020:
|
|
|
|
Nová úloha: Vytvorte skript pre konverziu značiek tagsetu MultextEast do tagsetu SNK.
|
|
|
|
Revízia 9.4.2020:
|
|
|
|
Report o doterajšej práci:
|
|
|
|
- naštudovanie Fasttext
|
|
- implementácia do Spacy
|
|
- úprava modelu v spacy na rozpoznanie jazyka
|
|
- snaha o spacy-udpipe pre non-English text
|
|
|
|
Nové úlohy:
|
|
|
|
- pridajte zdrojový text a odkaz na "implementáciu".
|
|
- natrénujte model podľa https://git.kemt.fei.tuke.sk/dano/spacy-skmodel
|
|
- skúste pridať "word-embeddingy" z fasttext do trénovania.
|
|
- vyhodnoťte natrénovaný model - zistite presnosť značkovania. Aký vplyv majú embeddingy na presnosť?
|
|
- porozmýšľajte ako sa dá presnosť zlepšiť.
|
|
|
|
|
|
Stretnutie 5.3.2020:
|
|
|
|
Úlohy na ďalšie stretnutie:
|
|
|
|
- zobrať alebo vytvoriť fasttext model
|
|
- pozrieť sa na [spacy pretrain](https://spacy.io/api/cli) - tam sa bude dať využiť fasttext model
|
|
- vložiť ho do spacy modelu pomocou `spacy pretrain`
|
|
- pozrieť si http://nl.ijs.si/ME/V4/ morfosyntaktická anotácia MULTEXT
|
|
- porozmýšľať ako využiť korpus "MultextEast" - potrebné vytvoriť mapovanie značiek na SNK Tagset
|
|
|
|
Poznámka:
|
|
|
|
- Aktivovaná Omega
|
|
- Pozrieť sa na https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/slovak-treebank , aktivovaný prístup
|
|
- už existuje mapovanie [Universal Dependencie na SNK tagset](https://github.com/explosion/spaCy/blob/master/spacy/lang/sk/tag_map.py)
|
|
|
|
|
|
Stretnutie: 20.2.2020:
|
|
|
|
Úlohy na ďalšie stretnutie:
|
|
|
|
- Pozrieť https://spacy.io/usage/training#tagger-parser
|
|
- Pozrieť si čo je word embedding - word2vec, fasttext, glove
|
|
- Nájsť spôsob ako využiť existujúci model word embedding pri trénovaní https://fasttext.cc/docs/en/pretrained-vectors.html
|
|
- Ako natrénovať Spacy POS model?
|
|
|
|
|
|
|
|
|
|
## Návrh na zadanie DP
|
|
|
|
Názov diplomovej práce: Štatistická morfologická anotácia slovenského jazyka
|
|
|
|
1. Vypracujte prehľad spôsobov morfologickej anotácie slovenského jazyka.
|
|
2. Pripravte trénovacie dáta vo vhodnom formáte a natrénujte štatistický model morfologického značkovania
|
|
3. Vyhodnoťte presnosť značkovania a navrhnite možné zlepšenia.
|
|
|
|
|
|
## Tímový projekt 2019
|
|
|
|
Projektové stránky:
|
|
|
|
- [Spracovanie prirodzeného jazyka](/topics/nlp)
|
|
- [Python](/topics/python)
|
|
- [Podpora slovenčiny v knižnici Spacy](/topics/spacy)
|
|
|
|
|
|
[Spacy tutoriál](./timovy_projekt)
|
|
|
|
- Vypracovať tutoriál pre prácu s nástrojom Spacy pre úlohu zisťovania gramatických značiek (part-of-speech). Súčasťou tutoriálu by mali byť aj odkazy na relevantné zdroje (odborné članky, min. 4).
|