forked from KEMT/zpwiki
stretko
This commit is contained in:
parent
355cc2f33b
commit
dd21dc5c9e
@ -12,8 +12,23 @@ Doplnenie podpory morfologického značkovania slovenského jazyka do nlp framew
|
|||||||
- Pozrieť jazykové zdroje z https://www.clarin.eu/resource-families/manually-annotated-corpora (MultextEast)
|
- Pozrieť jazykové zdroje z https://www.clarin.eu/resource-families/manually-annotated-corpora (MultextEast)
|
||||||
- Oboznámte sa so sadou morfologických značiek Universal Dependencies https://universaldependencies.org/sk/index.html
|
- Oboznámte sa so sadou morfologických značiek Universal Dependencies https://universaldependencies.org/sk/index.html
|
||||||
- Oboznámte sa so sadou SNK https://korpus.sk/morpho.html
|
- Oboznámte sa so sadou SNK https://korpus.sk/morpho.html
|
||||||
- Vytvoriť mapovanie morfologických značiek SNK na Universal Dependencies
|
- Natrénovať Spacy Model s POS a s pretrénovaním
|
||||||
- Natrénovať Spacy Model
|
|
||||||
|
Stretnutie 5.3.2020:
|
||||||
|
|
||||||
|
Úlohy na ďalšie stretnutie:
|
||||||
|
|
||||||
|
- zobrať alebo vytvoriť fasttext model
|
||||||
|
- pozrieť sa na [spacy pretrain](https://spacy.io/api/cli) - tam sa bude dať využiť fasttext model
|
||||||
|
- vložiť ho do spacy modelu pomocou `spacy pretrain`
|
||||||
|
- pozrieť si http://nl.ijs.si/ME/V4/ morfosyntaktická anotácia MULTEXT
|
||||||
|
- porozmýšľať ako využiť korpus "MultextEast" - potrebné vytvoriť mapovanie značiek na SNK Tagset
|
||||||
|
|
||||||
|
Poznámka:
|
||||||
|
|
||||||
|
- Aktivovaná Omega
|
||||||
|
- Pozrieť sa na https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/slovak-treebank , aktivovaný prístup
|
||||||
|
- už existuje mapovanie [Universal Dependencie na SNK tagset](https://github.com/explosion/spaCy/blob/master/spacy/lang/sk/tag_map.py)
|
||||||
|
|
||||||
|
|
||||||
Stretnutie: 20.2.2020:
|
Stretnutie: 20.2.2020:
|
||||||
|
Loading…
Reference in New Issue
Block a user