--- title: Podpora slovenčiny v knižnici Spacy published: true taxonomy: category: [project] tag: [spacy,nn,pos,ner,annotation,nlp] author: Daniel Hladek --- [Trénovanie modelov Spacy](https://spacy.io/usage/training) ## Ciele - Vytvoriť modul v jazyku Python pre podporu slovenčiny - Natrénovať štatistické modely: - pre morfologickú analýzu - rozpoznávanie pomenovaných entít - Unifikovaný systém pre predspracovanie slovenského jazyka - Podporiť dialógový systém RASA ## Úlohy - Zahrnúť transformery a predtrénované modely - Nájsť optimálne hyperparametre - Natrénovať vlastné WordEmbedding (fasttext). ## Súvisiace projekty - Anotácia pomenovaných entít pomocu frameworku [Prodigy](/topics/named-entity). - [Predtrénovanie jazykového modelu](/topics/bert) ## Repozitár - https://github.com/hladek/spacy-skmodel - [Repozitár Jozef Olekšák](https://git.kemt.fei.tuke.sk/jo673fv/sk-spacy)(slovenské stop words a pravidlá) - https://files.kemt.fei.tuke.sk/minio/models/spacy/ Hotové spacy modely ## Ľudia - [Maroš Harahus](/students/2016/maros_harahus) (štatistické značkovanie) - [Kristián Sopkovič](/students/2019/kristian_sopokovic) (vylepšenie parametrov, transformery) ## Ukončené projekty - Jozef Olekšák (slovenské stop words a pravidlá), - [Lukáš Pokrývka](/students/2016/lukas_pokryvka) (Word Embedding Modely) - [Martin Wencel](/students/2018/martin_wencel) demo aplikácia