diff --git a/pages/topics/spacy/README.md b/pages/topics/spacy/README.md index 6ec3b2336f..d81e5e88d4 100644 --- a/pages/topics/spacy/README.md +++ b/pages/topics/spacy/README.md @@ -16,13 +16,31 @@ taxonomy: - pre morfologickú analýzu - rozpoznávanie pomenovaných entít - Unifikovaný systém pre predspracovanie slovenského jazyka -- Podporiť dialógový systém RASA +- Možné aplikácie: + - Podporiť dialógový systém RASA + - Neurónové vyhľadávanie -## Úlohy +## Hotové úlohy -- Zahrnúť transformery a predtrénované modely -- Nájsť optimálne hyperparametre -- Natrénovať vlastné WordEmbedding (fasttext). +- trénovanie modelu Spacy 2, kompletné skripty +- trénovanie modelu Spacy 3 do SNK POS tagsetu (ver. 3.0), kompletné skripty +- trénovanie modelu Spacy 3 do UD tagsetu (ver. 3.1.), kompletné skripty +- zahrnuté slovné vektory Fasttext Common Crawl +- Trénovanie Dependency, POS pomocu UD Corpus +- Trénovanie NER pomocou automatického korpusu WikiNER (druhý model). + +## Budúce úlohy + +- Zahrnúť predtrénované modely (MultilingualBert, SlovakBert....). +- Nájsť optimálne hyperparametre. +- Zostaviť korpus pomenovaných entít. +- Zaradiť model do oficiálnej distribúcie Explosion AI, podmienka je vlastný korpus pomenovaných entít. + +## Neprioritné úlohy (zásobník) + +- Zaradiť vlastné WordEmbedding (fasttext). +- Pridať lexikálne pravidlá (skratky, stop slová) do oficiálnej distrubúcie Spacy. +- Zaradiť MultextEast do trénovania. Tam je ale potrebné konvertovať tagy do UD. ## Súvisiace projekty