dmytro_ushatenko/pages/students/2016/maros_harahus/README.md

# Maroš Harahus
## Diplomový projekt 2020

Zdroje:

- [Jazykové zdroje](/topics/resources)


Doplnenie podpory morfologického značkovania slovenského jazyka do nlp frameworku (spacy alebo flair) 

- Úlohy na tento semester: 
    - Pozrieť jazykové zdroje z https://www.clarin.eu/resource-families/manually-annotated-corpora  (MultextEast)
    - Oboznámte sa so sadou morfologických značiek Universal Dependencies https://universaldependencies.org/sk/index.html
    - Oboznámte sa so sadou SNK https://korpus.sk/morpho.html
    - Natrénovať Spacy Model s POS a s pretrénovaním

Stretnutie 12.6.2020:

- Pretrénovanie Fasttext a trénovanie POS Spacy modelu - ešte treba vylepšiť presnosť 

K zápočtu:

- Finálny okomentovaný skript pre trénovanie POS modelu podľa Slovak Treebank s pretrénovaním Fasttext. 
- Ak sa dá tak pri trénovaní využite GPU
- Zistite výslednú presnosť, mala by byť nad 80 percent.
- Porovnajte s presnosťou bez pretrénovania.


Zásobník úloh:

- Vykonať viacero experimentov s pretrénovaním - rôzne modely, rôzne veľkosti adaptačných dát a zostaviť tabuľku
- Opísať pretrénovanie, zhrnúť vplyv pretrénovania na trénovanie v krátkom článku cca 10 strán.
- skúsiť prezentovať na lokálnej konferencii, (Data, Znalosti and WIKT) alebo fakultný zborník (krátka verzia diplomovky).
- Využiť korpus Multext East pri trénovaní.  Vytvoriť mapovanie Multext Tagov na SNK Tagy.


Virtuálne stretnutie 15.5.2020:

- Spustenie exitujúceho skriptu pre trénovanie POS modelu z repozitára spacy-skmodel, problém nastal pri NER dátach.
- Vytvorený [repozitár](https://git.kemt.fei.tuke.sk/mh496vd/diplomovka)

Nové úlohy:

- Podrobne preštudovať a realizovať [spacy pretrain](https://spacy.io/api/cli#pretrain)
- [Blog o Spacy pretrain](https://explosion.ai/blog/spacy-v2-1)


Revízia 9.4.2020:

Report o doterajšej práci:

- naštudovanie Fasttext
- implementácia do Spacy
- úprava modelu v spacy na rozpoznanie jazyka
- snaha o spacy-udpipe pre  non-English text

Nové úlohy:

- pridajte zdrojový text a odkaz na "implementáciu".
- natrénujte model podľa https://git.kemt.fei.tuke.sk/dano/spacy-skmodel
- skúste pridať "word-embeddingy" z fasttext do trénovania.
- vyhodnoťte natrénovaný model - zistite presnosť značkovania. Aký vplyv majú embeddingy na presnosť?
- porozmýšľajte ako sa dá presnosť zlepšiť.


Stretnutie 5.3.2020:

Úlohy na ďalšie stretnutie:

- zobrať alebo vytvoriť fasttext model
- pozrieť sa na [spacy pretrain](https://spacy.io/api/cli) - tam sa bude dať využiť fasttext model
- vložiť ho do spacy modelu pomocou `spacy pretrain`
- pozrieť si http://nl.ijs.si/ME/V4/ morfosyntaktická anotácia MULTEXT
- porozmýšľať ako využiť korpus "MultextEast" - potrebné vytvoriť mapovanie značiek na SNK Tagset

Poznámka:

- Aktivovaná Omega
- Pozrieť sa na https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/slovak-treebank , aktivovaný prístup
- už existuje mapovanie [Universal Dependencie na SNK tagset](https://github.com/explosion/spaCy/blob/master/spacy/lang/sk/tag_map.py)


Stretnutie: 20.2.2020:

Úlohy na ďalšie stretnutie:

- Pozrieť https://spacy.io/usage/training#tagger-parser
- Pozrieť si čo je word embedding - word2vec, fasttext, glove
- Nájsť spôsob ako využiť existujúci model word embedding pri trénovaní https://fasttext.cc/docs/en/pretrained-vectors.html
- Ako natrénovať Spacy POS model?


## Návrh na zadanie DP

Názov diplomovej práce: Štatistická morfologická anotácia slovenského jazyka

1. Vypracujte  prehľad spôsobov morfologickej anotácie slovenského jazyka.
2. Pripravte trénovacie dáta vo vhodnom formáte a natrénujte štatistický model morfologického značkovania
3. Vyhodnoťte presnosť značkovania a navrhnite možné zlepšenia.


## Tímový projekt 2019

Projektové stránky:

- [Spracovanie prirodzeného jazyka](/topics/nlp)
- [Python](/topics/python)
- [Podpora slovenčiny v knižnici Spacy](/topics/spacy)


[Spacy tutoriál](./timovy_projekt)

- Vypracovať tutoriál pre prácu s nástrojom Spacy pre úlohu zisťovania gramatických značiek (part-of-speech). Súčasťou tutoriálu by mali byť aj odkazy na relevantné zdroje (odborné članky, min. 4).
harahus info 2019-12-05 09:12:50 +00:00			`# Maroš Harahus`
Update 'pages/students/2016/maros_harahus/README.md' 2020-02-20 11:52:50 +00:00			`## Diplomový projekt 2020`
harahus info 2019-12-05 09:12:50 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2020-03-05 11:34:13 +00:00			`Zdroje:`

			`- [Jazykové zdroje](/topics/resources)`

Update 'pages/students/2016/maros_harahus/README.md' 2020-01-23 10:05:21 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2020-02-20 11:52:50 +00:00			`Doplnenie podpory morfologického značkovania slovenského jazyka do nlp frameworku (spacy alebo flair)`
Update 'pages/students/2016/maros_harahus/README.md' 2019-12-12 09:18:35 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2020-02-20 11:52:50 +00:00			`- Úlohy na tento semester:`
harahus info 2019-12-05 09:12:50 +00:00			`- Pozrieť jazykové zdroje z https://www.clarin.eu/resource-families/manually-annotated-corpora (MultextEast)`
			`- Oboznámte sa so sadou morfologických značiek Universal Dependencies https://universaldependencies.org/sk/index.html`
			`- Oboznámte sa so sadou SNK https://korpus.sk/morpho.html`
stretko 2020-03-05 12:03:57 +00:00			`- Natrénovať Spacy Model s POS a s pretrénovaním`

zz 2020-06-23 13:35:22 +00:00			`Stretnutie 12.6.2020:`

			`- Pretrénovanie Fasttext a trénovanie POS Spacy modelu - ešte treba vylepšiť presnosť`

			`K zápočtu:`

			`- Finálny okomentovaný skript pre trénovanie POS modelu podľa Slovak Treebank s pretrénovaním Fasttext.`
			`- Ak sa dá tak pri trénovaní využite GPU`
			`- Zistite výslednú presnosť, mala by byť nad 80 percent.`
			`- Porovnajte s presnosťou bez pretrénovania.`


			`Zásobník úloh:`

			`- Vykonať viacero experimentov s pretrénovaním - rôzne modely, rôzne veľkosti adaptačných dát a zostaviť tabuľku`
			`- Opísať pretrénovanie, zhrnúť vplyv pretrénovania na trénovanie v krátkom článku cca 10 strán.`
			`- skúsiť prezentovať na lokálnej konferencii, (Data, Znalosti and WIKT) alebo fakultný zborník (krátka verzia diplomovky).`
			`- Využiť korpus Multext East pri trénovaní. Vytvoriť mapovanie Multext Tagov na SNK Tagy.`


Update 'pages/students/2016/maros_harahus/README.md' 2020-05-15 08:58:37 +00:00			`Virtuálne stretnutie 15.5.2020:`

			`- Spustenie exitujúceho skriptu pre trénovanie POS modelu z repozitára spacy-skmodel, problém nastal pri NER dátach.`
Update 'pages/students/2016/maros_harahus/README.md' 2020-05-15 09:00:42 +00:00			`- Vytvorený [repozitár](https://git.kemt.fei.tuke.sk/mh496vd/diplomovka)`
Update 'pages/students/2016/maros_harahus/README.md' 2020-05-15 08:58:37 +00:00
			`Nové úlohy:`

			`- Podrobne preštudovať a realizovať [spacy pretrain](https://spacy.io/api/cli#pretrain)`
Update 'pages/students/2016/maros_harahus/README.md' 2020-05-19 09:22:31 +00:00			`- [Blog o Spacy pretrain](https://explosion.ai/blog/spacy-v2-1)`
Update 'pages/students/2016/maros_harahus/README.md' 2020-05-15 08:58:37 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2020-05-13 13:30:08 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2020-05-13 13:24:39 +00:00
			`Revízia 9.4.2020:`

			`Report o doterajšej práci:`

			`- naštudovanie Fasttext`
			`- implementácia do Spacy`
			`- úprava modelu v spacy na rozpoznanie jazyka`
			`- snaha o spacy-udpipe pre non-English text`

			`Nové úlohy:`

			`- pridajte zdrojový text a odkaz na "implementáciu".`
			`- natrénujte model podľa https://git.kemt.fei.tuke.sk/dano/spacy-skmodel`
			`- skúste pridať "word-embeddingy" z fasttext do trénovania.`
			`- vyhodnoťte natrénovaný model - zistite presnosť značkovania. Aký vplyv majú embeddingy na presnosť?`
			`- porozmýšľajte ako sa dá presnosť zlepšiť.`


stretko 2020-03-05 12:03:57 +00:00			`Stretnutie 5.3.2020:`

			`Úlohy na ďalšie stretnutie:`

			`- zobrať alebo vytvoriť fasttext model`
			`- pozrieť sa na [spacy pretrain](https://spacy.io/api/cli) - tam sa bude dať využiť fasttext model`
			- vložiť ho do spacy modelu pomocou `spacy pretrain`
			`- pozrieť si http://nl.ijs.si/ME/V4/ morfosyntaktická anotácia MULTEXT`
			`- porozmýšľať ako využiť korpus "MultextEast" - potrebné vytvoriť mapovanie značiek na SNK Tagset`

			`Poznámka:`

			`- Aktivovaná Omega`
			`- Pozrieť sa na https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/slovak-treebank , aktivovaný prístup`
			`- už existuje mapovanie [Universal Dependencie na SNK tagset](https://github.com/explosion/spaCy/blob/master/spacy/lang/sk/tag_map.py)`
Update 'pages/students/2016/maros_harahus/README.md' 2020-02-20 11:52:50 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2020-03-05 11:49:38 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2020-02-20 11:52:50 +00:00			`Stretnutie: 20.2.2020:`

			`Úlohy na ďalšie stretnutie:`

			`- Pozrieť https://spacy.io/usage/training#tagger-parser`
			`- Pozrieť si čo je word embedding - word2vec, fasttext, glove`
			`- Nájsť spôsob ako využiť existujúci model word embedding pri trénovaní https://fasttext.cc/docs/en/pretrained-vectors.html`
			`- Ako natrénovať Spacy POS model?`

Update 'pages/students/2016/maros_harahus/README.md' 2020-04-09 09:12:05 +00:00

harahus info 2019-12-05 09:12:50 +00:00
			`## Návrh na zadanie DP`
zqzz 2019-12-12 09:25:56 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2020-02-07 10:16:39 +00:00			`Názov diplomovej práce: Štatistická morfologická anotácia slovenského jazyka`

			`1. Vypracujte prehľad spôsobov morfologickej anotácie slovenského jazyka.`
			`2. Pripravte trénovacie dáta vo vhodnom formáte a natrénujte štatistický model morfologického značkovania`
			`3. Vyhodnoťte presnosť značkovania a navrhnite možné zlepšenia.`
Update 'pages/students/2016/maros_harahus/README.md' 2020-02-20 11:52:50 +00:00

			`## Tímový projekt 2019`

			`Projektové stránky:`

			`- [Spracovanie prirodzeného jazyka](/topics/nlp)`
			`- [Python](/topics/python)`
			`- [Podpora slovenčiny v knižnici Spacy](/topics/spacy)`


			`[Spacy tutoriál](./timovy_projekt)`

			`- Vypracovať tutoriál pre prácu s nástrojom Spacy pre úlohu zisťovania gramatických značiek (part-of-speech). Súčasťou tutoriálu by mali byť aj odkazy na relevantné zdroje (odborné članky, min. 4).`