diff --git a/pages/students/2016/maros_harahus/README.md b/pages/students/2016/maros_harahus/README.md index 1b327358..70427f4e 100644 --- a/pages/students/2016/maros_harahus/README.md +++ b/pages/students/2016/maros_harahus/README.md @@ -14,6 +14,26 @@ Doplnenie podpory morfologického značkovania slovenského jazyka do nlp framew - Oboznámte sa so sadou SNK https://korpus.sk/morpho.html - Natrénovať Spacy Model s POS a s pretrénovaním +Stretnutie 12.6.2020: + +- Pretrénovanie Fasttext a trénovanie POS Spacy modelu - ešte treba vylepšiť presnosť + +K zápočtu: + +- Finálny okomentovaný skript pre trénovanie POS modelu podľa Slovak Treebank s pretrénovaním Fasttext. +- Ak sa dá tak pri trénovaní využite GPU +- Zistite výslednú presnosť, mala by byť nad 80 percent. +- Porovnajte s presnosťou bez pretrénovania. + + +Zásobník úloh: + +- Vykonať viacero experimentov s pretrénovaním - rôzne modely, rôzne veľkosti adaptačných dát a zostaviť tabuľku +- Opísať pretrénovanie, zhrnúť vplyv pretrénovania na trénovanie v krátkom článku cca 10 strán. +- skúsiť prezentovať na lokálnej konferencii, (Data, Znalosti and WIKT) alebo fakultný zborník (krátka verzia diplomovky). +- Využiť korpus Multext East pri trénovaní. Vytvoriť mapovanie Multext Tagov na SNK Tagy. + + Virtuálne stretnutie 15.5.2020: - Spustenie exitujúceho skriptu pre trénovanie POS modelu z repozitára spacy-skmodel, problém nastal pri NER dátach. @@ -24,10 +44,6 @@ Nové úlohy: - Podrobne preštudovať a realizovať [spacy pretrain](https://spacy.io/api/cli#pretrain) - [Blog o Spacy pretrain](https://explosion.ai/blog/spacy-v2-1) -Zásobník úloh: - -Využiť korpus Multext East pri trénovaní. Vytvoriť mapovanie Multext Tagov na SNK Tagy. - Revízia 9.4.2020: