diff --git a/pages/students/2016/maros_harahus/README.md b/pages/students/2016/maros_harahus/README.md index 52b119708f..daa9219923 100644 --- a/pages/students/2016/maros_harahus/README.md +++ b/pages/students/2016/maros_harahus/README.md @@ -12,8 +12,23 @@ Doplnenie podpory morfologického značkovania slovenského jazyka do nlp framew - Pozrieť jazykové zdroje z https://www.clarin.eu/resource-families/manually-annotated-corpora (MultextEast) - Oboznámte sa so sadou morfologických značiek Universal Dependencies https://universaldependencies.org/sk/index.html - Oboznámte sa so sadou SNK https://korpus.sk/morpho.html - - Vytvoriť mapovanie morfologických značiek SNK na Universal Dependencies - - Natrénovať Spacy Model + - Natrénovať Spacy Model s POS a s pretrénovaním + +Stretnutie 5.3.2020: + +Úlohy na ďalšie stretnutie: + +- zobrať alebo vytvoriť fasttext model +- pozrieť sa na [spacy pretrain](https://spacy.io/api/cli) - tam sa bude dať využiť fasttext model +- vložiť ho do spacy modelu pomocou `spacy pretrain` +- pozrieť si http://nl.ijs.si/ME/V4/ morfosyntaktická anotácia MULTEXT +- porozmýšľať ako využiť korpus "MultextEast" - potrebné vytvoriť mapovanie značiek na SNK Tagset + +Poznámka: + +- Aktivovaná Omega +- Pozrieť sa na https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/slovak-treebank , aktivovaný prístup +- už existuje mapovanie [Universal Dependencie na SNK tagset](https://github.com/explosion/spaCy/blob/master/spacy/lang/sk/tag_map.py) Stretnutie: 20.2.2020: