2019-12-05 09:12:50 +00:00
# Maroš Harahus
2020-02-20 11:52:50 +00:00
## Diplomový projekt 2020
2019-12-05 09:12:50 +00:00
2020-03-05 11:34:13 +00:00
Zdroje:
- [Jazykové zdroje ](/topics/resources )
2020-01-23 10:05:21 +00:00
2020-02-20 11:52:50 +00:00
Doplnenie podpory morfologického značkovania slovenského jazyka do nlp frameworku (spacy alebo flair)
2019-12-12 09:18:35 +00:00
2020-02-20 11:52:50 +00:00
- Úlohy na tento semester:
2019-12-05 09:12:50 +00:00
- Pozrieť jazykové zdroje z https://www.clarin.eu/resource-families/manually-annotated-corpora (MultextEast)
- Oboznámte sa so sadou morfologických značiek Universal Dependencies https://universaldependencies.org/sk/index.html
- Oboznámte sa so sadou SNK https://korpus.sk/morpho.html
2020-03-05 12:03:57 +00:00
- Natrénovať Spacy Model s POS a s pretrénovaním
Stretnutie 5.3.2020:
Úlohy na ďalšie stretnutie:
- zobrať alebo vytvoriť fasttext model
- pozrieť sa na [spacy pretrain ](https://spacy.io/api/cli ) - tam sa bude dať využiť fasttext model
- vložiť ho do spacy modelu pomocou `spacy pretrain`
- pozrieť si http://nl.ijs.si/ME/V4/ morfosyntaktická anotácia MULTEXT
- porozmýšľať ako využiť korpus "MultextEast" - potrebné vytvoriť mapovanie značiek na SNK Tagset
Poznámka:
- Aktivovaná Omega
- Pozrieť sa na https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/slovak-treebank , aktivovaný prístup
- už existuje mapovanie [Universal Dependencie na SNK tagset ](https://github.com/explosion/spaCy/blob/master/spacy/lang/sk/tag_map.py )
2020-02-20 11:52:50 +00:00
2020-03-05 11:49:38 +00:00
2020-02-20 11:52:50 +00:00
Stretnutie: 20.2.2020:
Úlohy na ďalšie stretnutie:
- Pozrieť https://spacy.io/usage/training#tagger-parser
- Pozrieť si čo je word embedding - word2vec, fasttext, glove
- Nájsť spôsob ako využiť existujúci model word embedding pri trénovaní https://fasttext.cc/docs/en/pretrained-vectors.html
- Ako natrénovať Spacy POS model?
2019-12-05 09:12:50 +00:00
## Návrh na zadanie DP
2019-12-12 09:25:56 +00:00
2020-02-07 10:16:39 +00:00
Názov diplomovej práce: Štatistická morfologická anotácia slovenského jazyka
1. Vypracujte prehľad spôsobov morfologickej anotácie slovenského jazyka.
2. Pripravte trénovacie dáta vo vhodnom formáte a natrénujte štatistický model morfologického značkovania
3. Vyhodnoťte presnosť značkovania a navrhnite možné zlepšenia.
2020-02-20 11:52:50 +00:00
## Tímový projekt 2019
Projektové stránky:
- [Spracovanie prirodzeného jazyka ](/topics/nlp )
- [Python ](/topics/python )
- [Podpora slovenčiny v knižnici Spacy ](/topics/spacy )
[Spacy tutoriál ](./timovy_projekt )
- Vypracovať tutoriál pre prácu s nástrojom Spacy pre úlohu zisťovania gramatických značiek (part-of-speech). Súčasťou tutoriálu by mali byť aj odkazy na relevantné zdroje (odborné članky, min. 4).