--- title: Podpora slovenčiny v knižnici Spacy published: true taxonomy: category: [project] tag: [spacy,nn,pos,ner,annotation,nlp] author: Daniel Hladek --- [Trénovanie modelov Spacy](https://spacy.io/usage/training) ## Ciele - Vytvoriť modul v jazyku Python pre podporu slovenčiny - Natrénovať štatistické modely: - pre morfologickú analýzu - rozpoznávanie pomenovaných entít - Unifikovaný systém pre predspracovanie slovenského jazyka - Možné aplikácie: - Podporiť dialógový systém RASA - Neurónové vyhľadávanie ## Hotové úlohy - trénovanie modelu Spacy 2, kompletné skripty - trénovanie modelu Spacy 3 do SNK POS tagsetu (ver. 3.0), kompletné skripty - trénovanie modelu Spacy 3 do UD tagsetu (ver. 3.1.), kompletné skripty - zahrnuté slovné vektory Fasttext Common Crawl - Trénovanie Dependency, POS pomocu UD Corpus - Trénovanie NER pomocou automatického korpusu WikiNER (druhý model). ## Budúce úlohy - Zahrnúť predtrénované modely (MultilingualBert, SlovakBert....). - Nájsť optimálne hyperparametre. - Zostaviť korpus pomenovaných entít. - Zaradiť model do oficiálnej distribúcie Explosion AI, podmienka je vlastný korpus pomenovaných entít. ## Neprioritné úlohy (zásobník) - Zaradiť vlastné WordEmbedding (fasttext). - Pridať lexikálne pravidlá (skratky, stop slová) do oficiálnej distrubúcie Spacy. - Zaradiť MultextEast do trénovania. Tam je ale potrebné konvertovať tagy do UD, napr. pomocou [Interset](https://github.com/dan-zeman/interset) ## Súvisiace projekty - Anotácia pomenovaných entít pomocu frameworku [Prodigy](/topics/named-entity). - [Predtrénovanie jazykového modelu](/topics/bert) ## Repozitár - https://github.com/hladek/spacy-skmodel - [Repozitár Jozef Olekšák](https://git.kemt.fei.tuke.sk/jo673fv/sk-spacy)(slovenské stop words a pravidlá) - https://files.kemt.fei.tuke.sk/minio/models/spacy/ Hotové spacy modely ## Ľudia - [Maroš Harahus](/students/2016/maros_harahus) (štatistické značkovanie) - [Kristián Sopkovič](/students/2019/kristian_sopokovic) (vylepšenie parametrov, transformery) ## Ukončené projekty - Jozef Olekšák (slovenské stop words a pravidlá), - [Lukáš Pokrývka](/students/2016/lukas_pokryvka) (Word Embedding Modely) - [Martin Wencel](/students/2018/martin_wencel) demo aplikácia