From f9d5552f8aa53f03d237becbbdcfa3bb1447b85d Mon Sep 17 00:00:00 2001 From: dano Date: Mon, 6 Dec 2021 12:42:13 +0000 Subject: [PATCH] Update 'pages/topics/spacy/README.md' --- pages/topics/spacy/README.md | 28 +++++++++++++++++++++++----- 1 file changed, 23 insertions(+), 5 deletions(-) diff --git a/pages/topics/spacy/README.md b/pages/topics/spacy/README.md index 6ec3b233..d81e5e88 100644 --- a/pages/topics/spacy/README.md +++ b/pages/topics/spacy/README.md @@ -16,13 +16,31 @@ taxonomy: - pre morfologickú analýzu - rozpoznávanie pomenovaných entít - Unifikovaný systém pre predspracovanie slovenského jazyka -- Podporiť dialógový systém RASA +- Možné aplikácie: + - Podporiť dialógový systém RASA + - Neurónové vyhľadávanie -## Úlohy +## Hotové úlohy -- Zahrnúť transformery a predtrénované modely -- Nájsť optimálne hyperparametre -- Natrénovať vlastné WordEmbedding (fasttext). +- trénovanie modelu Spacy 2, kompletné skripty +- trénovanie modelu Spacy 3 do SNK POS tagsetu (ver. 3.0), kompletné skripty +- trénovanie modelu Spacy 3 do UD tagsetu (ver. 3.1.), kompletné skripty +- zahrnuté slovné vektory Fasttext Common Crawl +- Trénovanie Dependency, POS pomocu UD Corpus +- Trénovanie NER pomocou automatického korpusu WikiNER (druhý model). + +## Budúce úlohy + +- Zahrnúť predtrénované modely (MultilingualBert, SlovakBert....). +- Nájsť optimálne hyperparametre. +- Zostaviť korpus pomenovaných entít. +- Zaradiť model do oficiálnej distribúcie Explosion AI, podmienka je vlastný korpus pomenovaných entít. + +## Neprioritné úlohy (zásobník) + +- Zaradiť vlastné WordEmbedding (fasttext). +- Pridať lexikálne pravidlá (skratky, stop slová) do oficiálnej distrubúcie Spacy. +- Zaradiť MultextEast do trénovania. Tam je ale potrebné konvertovať tagy do UD. ## Súvisiace projekty