This commit is contained in:
Daniel Hládek 2020-06-23 15:35:22 +02:00
parent 6d1d0bd62e
commit ba6599e6a6

View File

@ -14,6 +14,26 @@ Doplnenie podpory morfologického značkovania slovenského jazyka do nlp framew
- Oboznámte sa so sadou SNK https://korpus.sk/morpho.html
- Natrénovať Spacy Model s POS a s pretrénovaním
Stretnutie 12.6.2020:
- Pretrénovanie Fasttext a trénovanie POS Spacy modelu - ešte treba vylepšiť presnosť
K zápočtu:
- Finálny okomentovaný skript pre trénovanie POS modelu podľa Slovak Treebank s pretrénovaním Fasttext.
- Ak sa dá tak pri trénovaní využite GPU
- Zistite výslednú presnosť, mala by byť nad 80 percent.
- Porovnajte s presnosťou bez pretrénovania.
Zásobník úloh:
- Vykonať viacero experimentov s pretrénovaním - rôzne modely, rôzne veľkosti adaptačných dát a zostaviť tabuľku
- Opísať pretrénovanie, zhrnúť vplyv pretrénovania na trénovanie v krátkom článku cca 10 strán.
- skúsiť prezentovať na lokálnej konferencii, (Data, Znalosti and WIKT) alebo fakultný zborník (krátka verzia diplomovky).
- Využiť korpus Multext East pri trénovaní. Vytvoriť mapovanie Multext Tagov na SNK Tagy.
Virtuálne stretnutie 15.5.2020:
- Spustenie exitujúceho skriptu pre trénovanie POS modelu z repozitára spacy-skmodel, problém nastal pri NER dátach.
@ -24,10 +44,6 @@ Nové úlohy:
- Podrobne preštudovať a realizovať [spacy pretrain](https://spacy.io/api/cli#pretrain)
- [Blog o Spacy pretrain](https://explosion.ai/blog/spacy-v2-1)
Zásobník úloh:
Využiť korpus Multext East pri trénovaní. Vytvoriť mapovanie Multext Tagov na SNK Tagy.
Revízia 9.4.2020: