forked from KEMT/zpwiki
Update 'pages/students/2016/maros_harahus/README.md'
This commit is contained in:
parent
68a76afc81
commit
b3dd748e0e
@ -1,4 +1,35 @@
|
|||||||
# Maroš Harahus
|
# Maroš Harahus
|
||||||
|
## Diplomový projekt 2020
|
||||||
|
|
||||||
|
|
||||||
|
Doplnenie podpory morfologického značkovania slovenského jazyka do nlp frameworku (spacy alebo flair)
|
||||||
|
|
||||||
|
- Úlohy na tento semester:
|
||||||
|
- Pozrieť jazykové zdroje z https://www.clarin.eu/resource-families/manually-annotated-corpora (MultextEast)
|
||||||
|
- Oboznámte sa so sadou morfologických značiek Universal Dependencies https://universaldependencies.org/sk/index.html
|
||||||
|
- Oboznámte sa so sadou SNK https://korpus.sk/morpho.html
|
||||||
|
- Vytvoriť mapovanie morfologických značiek SNK na Universal Dependencies
|
||||||
|
- Natrénovať Spacy Model
|
||||||
|
|
||||||
|
Stretnutie: 20.2.2020:
|
||||||
|
|
||||||
|
Úlohy na ďalšie stretnutie:
|
||||||
|
|
||||||
|
- Pozrieť https://spacy.io/usage/training#tagger-parser
|
||||||
|
- Pozrieť si čo je word embedding - word2vec, fasttext, glove
|
||||||
|
- Nájsť spôsob ako využiť existujúci model word embedding pri trénovaní https://fasttext.cc/docs/en/pretrained-vectors.html
|
||||||
|
- Ako natrénovať Spacy POS model?
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
## Návrh na zadanie DP
|
||||||
|
|
||||||
|
Názov diplomovej práce: Štatistická morfologická anotácia slovenského jazyka
|
||||||
|
|
||||||
|
1. Vypracujte prehľad spôsobov morfologickej anotácie slovenského jazyka.
|
||||||
|
2. Pripravte trénovacie dáta vo vhodnom formáte a natrénujte štatistický model morfologického značkovania
|
||||||
|
3. Vyhodnoťte presnosť značkovania a navrhnite možné zlepšenia.
|
||||||
|
|
||||||
|
|
||||||
## Tímový projekt 2019
|
## Tímový projekt 2019
|
||||||
|
|
||||||
@ -12,17 +43,3 @@ Projektové stránky:
|
|||||||
[Spacy tutoriál](./timovy_projekt)
|
[Spacy tutoriál](./timovy_projekt)
|
||||||
|
|
||||||
- Vypracovať tutoriál pre prácu s nástrojom Spacy pre úlohu zisťovania gramatických značiek (part-of-speech). Súčasťou tutoriálu by mali byť aj odkazy na relevantné zdroje (odborné članky, min. 4).
|
- Vypracovať tutoriál pre prácu s nástrojom Spacy pre úlohu zisťovania gramatických značiek (part-of-speech). Súčasťou tutoriálu by mali byť aj odkazy na relevantné zdroje (odborné članky, min. 4).
|
||||||
- Návrh na zadanie: Doplnenie podpory morfologického značkovania slovenského jazyka do nlp frameworku (spacy alebo flair)
|
|
||||||
- Úloha na ďalší semester:
|
|
||||||
- Pozrieť jazykové zdroje z https://www.clarin.eu/resource-families/manually-annotated-corpora (MultextEast)
|
|
||||||
- Oboznámte sa so sadou morfologických značiek Universal Dependencies https://universaldependencies.org/sk/index.html
|
|
||||||
- Oboznámte sa so sadou SNK https://korpus.sk/morpho.html
|
|
||||||
- Vytvoriť mapovanie morfologických značiek SNK na Universal Dependencies
|
|
||||||
|
|
||||||
## Návrh na zadanie DP
|
|
||||||
|
|
||||||
Názov diplomovej práce: Štatistická morfologická anotácia slovenského jazyka
|
|
||||||
|
|
||||||
1. Vypracujte prehľad spôsobov morfologickej anotácie slovenského jazyka.
|
|
||||||
2. Pripravte trénovacie dáta vo vhodnom formáte a natrénujte štatistický model morfologického značkovania
|
|
||||||
3. Vyhodnoťte presnosť značkovania a navrhnite možné zlepšenia.
|
|
||||||
|
Loading…
Reference in New Issue
Block a user