zpwiki/pages/topics/spacy/README.md

---
title: Podpora slovenčiny v knižnici Spacy
published: true
taxonomy:
    category: [project]
    tag: [spacy,nn,pos,ner,annotation,nlp]
    author: Daniel Hladek
---

[Trénovanie modelov Spacy](https://spacy.io/usage/training)

## Ciele

- Vytvoriť modul v jazyku Python  pre podporu slovenčiny
- Natrénovať štatistické modely:
   - pre morfologickú analýzu
   - rozpoznávanie pomenovaných entít
- Unifikovaný systém pre predspracovanie slovenského jazyka
- Možné aplikácie:
    - Podporiť dialógový systém RASA
    - Neurónové vyhľadávanie

## Hotové úlohy

- trénovanie modelu Spacy 2, kompletné skripty
- trénovanie modelu Spacy 3 do SNK POS tagsetu (ver. 3.0), kompletné skripty
- trénovanie modelu Spacy 3 do UD tagsetu (ver. 3.1.), kompletné skripty
- zahrnuté slovné vektory Fasttext Common Crawl
- Trénovanie Dependency, POS pomocu UD Corpus
- Trénovanie NER pomocou automatického korpusu WikiNER (druhý model).

## Budúce úlohy

- Zahrnúť predtrénované modely (MultilingualBert, SlovakBert....).
- Nájsť optimálne hyperparametre.
- Zostaviť korpus pomenovaných entít.
- Zaradiť model do oficiálnej distribúcie Explosion AI, podmienka je vlastný korpus pomenovaných entít.

## Neprioritné úlohy (zásobník)

- Zaradiť vlastné WordEmbedding (fasttext).
- Pridať lexikálne pravidlá (skratky, stop slová) do oficiálnej distrubúcie Spacy.
- Zaradiť MultextEast do trénovania. Tam je ale potrebné konvertovať tagy do UD, napr. pomocou [Interset](https://github.com/dan-zeman/interset)

## Súvisiace projekty

- Anotácia pomenovaných entít pomocu frameworku [Prodigy](/topics/named-entity).
- [Predtrénovanie jazykového modelu](/topics/bert)

## Repozitár

- https://github.com/hladek/spacy-skmodel
- [Repozitár Jozef Olekšák](https://git.kemt.fei.tuke.sk/jo673fv/sk-spacy)(slovenské stop words a pravidlá)
- https://files.kemt.fei.tuke.sk/minio/models/spacy/ Hotové spacy modely

## Ľudia

- [Maroš Harahus](/students/2016/maros_harahus) (štatistické značkovanie)
- [Kristián Sopkovič](/students/2019/kristian_sopokovic) (vylepšenie parametrov, transformery)

## Ukončené projekty

- Jozef Olekšák (slovenské stop words a pravidlá),
- [Lukáš Pokrývka](/students/2016/lukas_pokryvka) (Word Embedding Modely)
- [Martin Wencel](/students/2018/martin_wencel) demo aplikácia