From b3dd748e0e23cff129b4c8a66a6d0ad48db00b84 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 20 Feb 2020 11:52:50 +0000 Subject: [PATCH] Update 'pages/students/2016/maros_harahus/README.md' --- pages/students/2016/maros_harahus/README.md | 45 ++++++++++++++------- 1 file changed, 31 insertions(+), 14 deletions(-) diff --git a/pages/students/2016/maros_harahus/README.md b/pages/students/2016/maros_harahus/README.md index 12725dc5a..62629ba84 100644 --- a/pages/students/2016/maros_harahus/README.md +++ b/pages/students/2016/maros_harahus/README.md @@ -1,4 +1,35 @@ # Maroš Harahus +## Diplomový projekt 2020 + + +Doplnenie podpory morfologického značkovania slovenského jazyka do nlp frameworku (spacy alebo flair) + +- Úlohy na tento semester: + - Pozrieť jazykové zdroje z https://www.clarin.eu/resource-families/manually-annotated-corpora (MultextEast) + - Oboznámte sa so sadou morfologických značiek Universal Dependencies https://universaldependencies.org/sk/index.html + - Oboznámte sa so sadou SNK https://korpus.sk/morpho.html + - Vytvoriť mapovanie morfologických značiek SNK na Universal Dependencies + - Natrénovať Spacy Model + +Stretnutie: 20.2.2020: + +Úlohy na ďalšie stretnutie: + +- Pozrieť https://spacy.io/usage/training#tagger-parser +- Pozrieť si čo je word embedding - word2vec, fasttext, glove +- Nájsť spôsob ako využiť existujúci model word embedding pri trénovaní https://fasttext.cc/docs/en/pretrained-vectors.html +- Ako natrénovať Spacy POS model? + + + +## Návrh na zadanie DP + +Názov diplomovej práce: Štatistická morfologická anotácia slovenského jazyka + +1. Vypracujte prehľad spôsobov morfologickej anotácie slovenského jazyka. +2. Pripravte trénovacie dáta vo vhodnom formáte a natrénujte štatistický model morfologického značkovania +3. Vyhodnoťte presnosť značkovania a navrhnite možné zlepšenia. + ## Tímový projekt 2019 @@ -12,17 +43,3 @@ Projektové stránky: [Spacy tutoriál](./timovy_projekt) - Vypracovať tutoriál pre prácu s nástrojom Spacy pre úlohu zisťovania gramatických značiek (part-of-speech). Súčasťou tutoriálu by mali byť aj odkazy na relevantné zdroje (odborné članky, min. 4). -- Návrh na zadanie: Doplnenie podpory morfologického značkovania slovenského jazyka do nlp frameworku (spacy alebo flair) -- Úloha na ďalší semester: - - Pozrieť jazykové zdroje z https://www.clarin.eu/resource-families/manually-annotated-corpora (MultextEast) - - Oboznámte sa so sadou morfologických značiek Universal Dependencies https://universaldependencies.org/sk/index.html - - Oboznámte sa so sadou SNK https://korpus.sk/morpho.html - - Vytvoriť mapovanie morfologických značiek SNK na Universal Dependencies - -## Návrh na zadanie DP - -Názov diplomovej práce: Štatistická morfologická anotácia slovenského jazyka - -1. Vypracujte prehľad spôsobov morfologickej anotácie slovenského jazyka. -2. Pripravte trénovacie dáta vo vhodnom formáte a natrénujte štatistický model morfologického značkovania -3. Vyhodnoťte presnosť značkovania a navrhnite možné zlepšenia.