This commit is contained in:
Daniel Hládek 2020-03-05 13:03:57 +01:00
parent 355cc2f33b
commit dd21dc5c9e

View File

@ -12,8 +12,23 @@ Doplnenie podpory morfologického značkovania slovenského jazyka do nlp framew
- Pozrieť jazykové zdroje z https://www.clarin.eu/resource-families/manually-annotated-corpora (MultextEast) - Pozrieť jazykové zdroje z https://www.clarin.eu/resource-families/manually-annotated-corpora (MultextEast)
- Oboznámte sa so sadou morfologických značiek Universal Dependencies https://universaldependencies.org/sk/index.html - Oboznámte sa so sadou morfologických značiek Universal Dependencies https://universaldependencies.org/sk/index.html
- Oboznámte sa so sadou SNK https://korpus.sk/morpho.html - Oboznámte sa so sadou SNK https://korpus.sk/morpho.html
- Vytvoriť mapovanie morfologických značiek SNK na Universal Dependencies - Natrénovať Spacy Model s POS a s pretrénovaním
- Natrénovať Spacy Model
Stretnutie 5.3.2020:
Úlohy na ďalšie stretnutie:
- zobrať alebo vytvoriť fasttext model
- pozrieť sa na [spacy pretrain](https://spacy.io/api/cli) - tam sa bude dať využiť fasttext model
- vložiť ho do spacy modelu pomocou `spacy pretrain`
- pozrieť si http://nl.ijs.si/ME/V4/ morfosyntaktická anotácia MULTEXT
- porozmýšľať ako využiť korpus "MultextEast" - potrebné vytvoriť mapovanie značiek na SNK Tagset
Poznámka:
- Aktivovaná Omega
- Pozrieť sa na https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/slovak-treebank , aktivovaný prístup
- už existuje mapovanie [Universal Dependencie na SNK tagset](https://github.com/explosion/spaCy/blob/master/spacy/lang/sk/tag_map.py)
Stretnutie: 20.2.2020: Stretnutie: 20.2.2020: