Update 'pages/topics/spacy/README.md'

This commit is contained in:
dano 2021-12-06 12:42:13 +00:00
parent ba571b1ef1
commit f9d5552f8a

View File

@ -16,13 +16,31 @@ taxonomy:
- pre morfologickú analýzu - pre morfologickú analýzu
- rozpoznávanie pomenovaných entít - rozpoznávanie pomenovaných entít
- Unifikovaný systém pre predspracovanie slovenského jazyka - Unifikovaný systém pre predspracovanie slovenského jazyka
- Podporiť dialógový systém RASA - Možné aplikácie:
- Podporiť dialógový systém RASA
- Neurónové vyhľadávanie
## Úlohy ## Hotové úlohy
- Zahrnúť transformery a predtrénované modely - trénovanie modelu Spacy 2, kompletné skripty
- Nájsť optimálne hyperparametre - trénovanie modelu Spacy 3 do SNK POS tagsetu (ver. 3.0), kompletné skripty
- Natrénovať vlastné WordEmbedding (fasttext). - trénovanie modelu Spacy 3 do UD tagsetu (ver. 3.1.), kompletné skripty
- zahrnuté slovné vektory Fasttext Common Crawl
- Trénovanie Dependency, POS pomocu UD Corpus
- Trénovanie NER pomocou automatického korpusu WikiNER (druhý model).
## Budúce úlohy
- Zahrnúť predtrénované modely (MultilingualBert, SlovakBert....).
- Nájsť optimálne hyperparametre.
- Zostaviť korpus pomenovaných entít.
- Zaradiť model do oficiálnej distribúcie Explosion AI, podmienka je vlastný korpus pomenovaných entít.
## Neprioritné úlohy (zásobník)
- Zaradiť vlastné WordEmbedding (fasttext).
- Pridať lexikálne pravidlá (skratky, stop slová) do oficiálnej distrubúcie Spacy.
- Zaradiť MultextEast do trénovania. Tam je ale potrebné konvertovať tagy do UD.
## Súvisiace projekty ## Súvisiace projekty