zpwiki/spacy at 06fec23f6ba14c704cfedc9cc17b4bba93d6e5f7 - zpwiki - KEMT

KEMT/zpwiki

History

dano 4823550169 Update 'pages/topics/spacy/README.md'		2021-12-06 12:45:08 +00:00
..
README.md	Update 'pages/topics/spacy/README.md'	2021-12-06 12:45:08 +00:00

README.md

title

published

taxonomy

Podpora slovenčiny v knižnici Spacy

true

category

tag

author

project

spacy

nn

pos

ner

annotation

nlp

Daniel Hladek

Trénovanie modelov Spacy

Ciele

Vytvoriť modul v jazyku Python pre podporu slovenčiny
Natrénovať štatistické modely:
- pre morfologickú analýzu
- rozpoznávanie pomenovaných entít
Unifikovaný systém pre predspracovanie slovenského jazyka
Možné aplikácie:
- Podporiť dialógový systém RASA
- Neurónové vyhľadávanie

Hotové úlohy

trénovanie modelu Spacy 2, kompletné skripty
trénovanie modelu Spacy 3 do SNK POS tagsetu (ver. 3.0), kompletné skripty
trénovanie modelu Spacy 3 do UD tagsetu (ver. 3.1.), kompletné skripty
zahrnuté slovné vektory Fasttext Common Crawl
Trénovanie Dependency, POS pomocu UD Corpus
Trénovanie NER pomocou automatického korpusu WikiNER (druhý model).

Budúce úlohy

Zahrnúť predtrénované modely (MultilingualBert, SlovakBert....).
Nájsť optimálne hyperparametre.
Zostaviť korpus pomenovaných entít.
Zaradiť model do oficiálnej distribúcie Explosion AI, podmienka je vlastný korpus pomenovaných entít.

Neprioritné úlohy (zásobník)

Zaradiť vlastné WordEmbedding (fasttext).
Pridať lexikálne pravidlá (skratky, stop slová) do oficiálnej distrubúcie Spacy.
Zaradiť MultextEast do trénovania. Tam je ale potrebné konvertovať tagy do UD, napr. pomocou Interset

Súvisiace projekty

Anotácia pomenovaných entít pomocu frameworku Prodigy.
Predtrénovanie jazykového modelu

Repozitár

https://github.com/hladek/spacy-skmodel
Repozitár Jozef Olekšák(slovenské stop words a pravidlá)
https://files.kemt.fei.tuke.sk/minio/models/spacy/ Hotové spacy modely

Ľudia

Maroš Harahus (štatistické značkovanie)
Kristián Sopkovič (vylepšenie parametrov, transformery)

Ukončené projekty

Jozef Olekšák (slovenské stop words a pravidlá),
Lukáš Pokrývka (Word Embedding Modely)
Martin Wencel demo aplikácia