| .. | ||
| README.md | ||
| title | published | taxonomy | |||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Podpora slovenčiny v knižnici Spacy | true | 
  | 
Ciele
- Vytvoriť modul v jazyku Python pre podporu slovenčiny
 - Natrénovať štatistické modely:
- pre morfologickú analýzu
 - rozpoznávanie pomenovaných entít
 
 - Unifikovaný systém pre predspracovanie slovenského jazyka
 - Možné aplikácie:
- Podporiť dialógový systém RASA
 - Neurónové vyhľadávanie
 
 
Hotové úlohy
- trénovanie modelu Spacy 2, kompletné skripty
 - trénovanie modelu Spacy 3 do SNK POS tagsetu (ver. 3.0), kompletné skripty
 - trénovanie modelu Spacy 3 do UD tagsetu (ver. 3.1.), kompletné skripty
 - zahrnuté slovné vektory Fasttext Common Crawl
 - Trénovanie Dependency, POS pomocu UD Corpus
 - Trénovanie NER pomocou automatického korpusu WikiNER (druhý model).
 
Budúce úlohy
- Zahrnúť predtrénované modely (MultilingualBert, SlovakBert....).
 - Nájsť optimálne hyperparametre.
 - Zostaviť korpus pomenovaných entít.
 - Zaradiť model do oficiálnej distribúcie Explosion AI, podmienka je vlastný korpus pomenovaných entít.
 
Neprioritné úlohy (zásobník)
- Zaradiť vlastné WordEmbedding (fasttext).
 - Pridať lexikálne pravidlá (skratky, stop slová) do oficiálnej distrubúcie Spacy.
 - Zaradiť MultextEast do trénovania. Tam je ale potrebné konvertovať tagy do UD, napr. pomocou Interset
 
Súvisiace projekty
- Anotácia pomenovaných entít pomocu frameworku Prodigy.
 - Predtrénovanie jazykového modelu
 
Repozitár
- https://github.com/hladek/spacy-skmodel
 - Repozitár Jozef Olekšák(slovenské stop words a pravidlá)
 - https://files.kemt.fei.tuke.sk/minio/models/spacy/ Hotové spacy modely
 
Ľudia
- Maroš Harahus (štatistické značkovanie)
 - Kristián Sopkovič (vylepšenie parametrov, transformery)
 
Ukončené projekty
- Jozef Olekšák (slovenské stop words a pravidlá),
 - Lukáš Pokrývka (Word Embedding Modely)
 - Martin Wencel demo aplikácia