dmytro_ushatenko/pages/topics/spacy/README.md

2.3 KiB

title published taxonomy
Podpora slovenčiny v knižnici Spacy true
category tag author
project
spacy
nn
pos
ner
annotation
nlp
Daniel Hladek

Trénovanie modelov Spacy

Ciele

  • Vytvoriť modul v jazyku Python pre podporu slovenčiny
  • Natrénovať štatistické modely:
    • pre morfologickú analýzu
    • rozpoznávanie pomenovaných entít
  • Unifikovaný systém pre predspracovanie slovenského jazyka
  • Možné aplikácie:
    • Podporiť dialógový systém RASA
    • Neurónové vyhľadávanie

Hotové úlohy

  • trénovanie modelu Spacy 2, kompletné skripty
  • trénovanie modelu Spacy 3 do SNK POS tagsetu (ver. 3.0), kompletné skripty
  • trénovanie modelu Spacy 3 do UD tagsetu (ver. 3.1.), kompletné skripty
  • zahrnuté slovné vektory Fasttext Common Crawl
  • Trénovanie Dependency, POS pomocu UD Corpus
  • Trénovanie NER pomocou automatického korpusu WikiNER (druhý model).

Budúce úlohy

  • Zahrnúť predtrénované modely (MultilingualBert, SlovakBert....).
  • Nájsť optimálne hyperparametre.
  • Zostaviť korpus pomenovaných entít.
  • Zaradiť model do oficiálnej distribúcie Explosion AI, podmienka je vlastný korpus pomenovaných entít.

Neprioritné úlohy (zásobník)

  • Zaradiť vlastné WordEmbedding (fasttext).
  • Pridať lexikálne pravidlá (skratky, stop slová) do oficiálnej distrubúcie Spacy.
  • Zaradiť MultextEast do trénovania. Tam je ale potrebné konvertovať tagy do UD.

Súvisiace projekty

Repozitár

Ľudia

Ukončené projekty