Update 'pages/topics/spacy/README.md'

This commit is contained in:
dano 2021-12-06 12:42:13 +00:00
parent ba571b1ef1
commit f9d5552f8a

View File

@ -16,13 +16,31 @@ taxonomy:
- pre morfologickú analýzu
- rozpoznávanie pomenovaných entít
- Unifikovaný systém pre predspracovanie slovenského jazyka
- Možné aplikácie:
- Podporiť dialógový systém RASA
- Neurónové vyhľadávanie
## Úlohy
## Hotové úlohy
- Zahrnúť transformery a predtrénované modely
- Nájsť optimálne hyperparametre
- Natrénovať vlastné WordEmbedding (fasttext).
- trénovanie modelu Spacy 2, kompletné skripty
- trénovanie modelu Spacy 3 do SNK POS tagsetu (ver. 3.0), kompletné skripty
- trénovanie modelu Spacy 3 do UD tagsetu (ver. 3.1.), kompletné skripty
- zahrnuté slovné vektory Fasttext Common Crawl
- Trénovanie Dependency, POS pomocu UD Corpus
- Trénovanie NER pomocou automatického korpusu WikiNER (druhý model).
## Budúce úlohy
- Zahrnúť predtrénované modely (MultilingualBert, SlovakBert....).
- Nájsť optimálne hyperparametre.
- Zostaviť korpus pomenovaných entít.
- Zaradiť model do oficiálnej distribúcie Explosion AI, podmienka je vlastný korpus pomenovaných entít.
## Neprioritné úlohy (zásobník)
- Zaradiť vlastné WordEmbedding (fasttext).
- Pridať lexikálne pravidlá (skratky, stop slová) do oficiálnej distrubúcie Spacy.
- Zaradiť MultextEast do trénovania. Tam je ale potrebné konvertovať tagy do UD.
## Súvisiace projekty