Spolupráca na záverečných prácach https://zp.kemt.fei.tuke.sk
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
 
 
 
 
 

2.3 KiB

title published taxonomy
Podpora slovenčiny v knižnici Spacy true [{category [project]} {tag [spacy nn pos ner annotation nlp]} {author Daniel Hladek}]

Trénovanie modelov Spacy

Ciele

  • Vytvoriť modul v jazyku Python pre podporu slovenčiny
  • Natrénovať štatistické modely:
    • pre morfologickú analýzu
    • rozpoznávanie pomenovaných entít
  • Unifikovaný systém pre predspracovanie slovenského jazyka
  • Možné aplikácie:
    • Podporiť dialógový systém RASA
    • Neurónové vyhľadávanie

Hotové úlohy

  • trénovanie modelu Spacy 2, kompletné skripty
  • trénovanie modelu Spacy 3 do SNK POS tagsetu (ver. 3.0), kompletné skripty
  • trénovanie modelu Spacy 3 do UD tagsetu (ver. 3.1.), kompletné skripty
  • zahrnuté slovné vektory Fasttext Common Crawl
  • Trénovanie Dependency, POS pomocu UD Corpus
  • Trénovanie NER pomocou automatického korpusu WikiNER (druhý model).

Budúce úlohy

  • Zahrnúť predtrénované modely (MultilingualBert, SlovakBert....).
  • Nájsť optimálne hyperparametre.
  • Zostaviť korpus pomenovaných entít.
  • Zaradiť model do oficiálnej distribúcie Explosion AI, podmienka je vlastný korpus pomenovaných entít.

Neprioritné úlohy (zásobník)

  • Zaradiť vlastné WordEmbedding (fasttext).
  • Pridať lexikálne pravidlá (skratky, stop slová) do oficiálnej distrubúcie Spacy.
  • Zaradiť MultextEast do trénovania. Tam je ale potrebné konvertovať tagy do UD, napr. pomocou Interset

Súvisiace projekty

Repozitár

Ľudia

Ukončené projekty