2020-01-26 13:19:43 +00:00
|
|
|
---
|
2021-01-26 11:01:41 +00:00
|
|
|
title: Podpora slovenčiny v knižnici Spacy
|
2020-10-01 14:05:57 +00:00
|
|
|
published: true
|
|
|
|
taxonomy:
|
|
|
|
category: [project]
|
|
|
|
tag: [spacy,nn,pos,ner,annotation,nlp]
|
|
|
|
author: Daniel Hladek
|
2020-01-26 13:19:43 +00:00
|
|
|
---
|
2021-01-26 11:01:41 +00:00
|
|
|
|
2020-04-14 14:48:36 +00:00
|
|
|
[Trénovanie modelov Spacy](https://spacy.io/usage/training)
|
2019-12-07 11:58:50 +00:00
|
|
|
|
2021-12-02 14:45:30 +00:00
|
|
|
## Ciele
|
2019-12-07 11:58:50 +00:00
|
|
|
|
|
|
|
- Vytvoriť modul v jazyku Python pre podporu slovenčiny
|
|
|
|
- Natrénovať štatistické modely:
|
|
|
|
- pre morfologickú analýzu
|
2019-12-07 12:06:01 +00:00
|
|
|
- rozpoznávanie pomenovaných entít
|
2021-12-02 14:45:30 +00:00
|
|
|
- Unifikovaný systém pre predspracovanie slovenského jazyka
|
2021-12-06 12:42:13 +00:00
|
|
|
- Možné aplikácie:
|
|
|
|
- Podporiť dialógový systém RASA
|
|
|
|
- Neurónové vyhľadávanie
|
2021-12-02 14:45:30 +00:00
|
|
|
|
2021-12-06 12:42:13 +00:00
|
|
|
## Hotové úlohy
|
2021-12-02 14:45:30 +00:00
|
|
|
|
2021-12-06 12:42:13 +00:00
|
|
|
- trénovanie modelu Spacy 2, kompletné skripty
|
|
|
|
- trénovanie modelu Spacy 3 do SNK POS tagsetu (ver. 3.0), kompletné skripty
|
|
|
|
- trénovanie modelu Spacy 3 do UD tagsetu (ver. 3.1.), kompletné skripty
|
|
|
|
- zahrnuté slovné vektory Fasttext Common Crawl
|
|
|
|
- Trénovanie Dependency, POS pomocu UD Corpus
|
|
|
|
- Trénovanie NER pomocou automatického korpusu WikiNER (druhý model).
|
|
|
|
|
|
|
|
## Budúce úlohy
|
|
|
|
|
|
|
|
- Zahrnúť predtrénované modely (MultilingualBert, SlovakBert....).
|
|
|
|
- Nájsť optimálne hyperparametre.
|
|
|
|
- Zostaviť korpus pomenovaných entít.
|
|
|
|
- Zaradiť model do oficiálnej distribúcie Explosion AI, podmienka je vlastný korpus pomenovaných entít.
|
|
|
|
|
|
|
|
## Neprioritné úlohy (zásobník)
|
|
|
|
|
|
|
|
- Zaradiť vlastné WordEmbedding (fasttext).
|
|
|
|
- Pridať lexikálne pravidlá (skratky, stop slová) do oficiálnej distrubúcie Spacy.
|
2021-12-06 12:45:08 +00:00
|
|
|
- Zaradiť MultextEast do trénovania. Tam je ale potrebné konvertovať tagy do UD, napr. pomocou [Interset](https://github.com/dan-zeman/interset)
|
2021-12-02 14:45:30 +00:00
|
|
|
|
|
|
|
## Súvisiace projekty
|
|
|
|
|
2021-12-02 14:46:50 +00:00
|
|
|
- Anotácia pomenovaných entít pomocu frameworku [Prodigy](/topics/named-entity).
|
|
|
|
- [Predtrénovanie jazykového modelu](/topics/bert)
|
2019-12-07 12:06:01 +00:00
|
|
|
|
2019-12-10 10:04:54 +00:00
|
|
|
## Repozitár
|
|
|
|
|
2021-12-02 14:39:06 +00:00
|
|
|
- https://github.com/hladek/spacy-skmodel
|
2021-12-02 14:45:30 +00:00
|
|
|
- [Repozitár Jozef Olekšák](https://git.kemt.fei.tuke.sk/jo673fv/sk-spacy)(slovenské stop words a pravidlá)
|
2020-04-14 14:46:05 +00:00
|
|
|
- https://files.kemt.fei.tuke.sk/minio/models/spacy/ Hotové spacy modely
|
2019-12-10 10:04:54 +00:00
|
|
|
|
2019-12-07 12:06:01 +00:00
|
|
|
## Ľudia
|
|
|
|
|
2021-01-27 07:54:02 +00:00
|
|
|
- [Maroš Harahus](/students/2016/maros_harahus) (štatistické značkovanie)
|
2021-12-02 14:39:06 +00:00
|
|
|
- [Kristián Sopkovič](/students/2019/kristian_sopokovic) (vylepšenie parametrov, transformery)
|
2021-12-02 14:39:50 +00:00
|
|
|
|
|
|
|
## Ukončené projekty
|
|
|
|
|
2021-12-02 14:45:30 +00:00
|
|
|
- Jozef Olekšák (slovenské stop words a pravidlá),
|
2020-10-01 14:05:57 +00:00
|
|
|
- [Lukáš Pokrývka](/students/2016/lukas_pokryvka) (Word Embedding Modely)
|
2021-01-27 07:54:02 +00:00
|
|
|
- [Martin Wencel](/students/2018/martin_wencel) demo aplikácia
|