forked from KEMT/zpwiki
Update 'pages/topics/spacy/README.md'
This commit is contained in:
parent
ba571b1ef1
commit
f9d5552f8a
@ -16,13 +16,31 @@ taxonomy:
|
||||
- pre morfologickú analýzu
|
||||
- rozpoznávanie pomenovaných entít
|
||||
- Unifikovaný systém pre predspracovanie slovenského jazyka
|
||||
- Možné aplikácie:
|
||||
- Podporiť dialógový systém RASA
|
||||
- Neurónové vyhľadávanie
|
||||
|
||||
## Úlohy
|
||||
## Hotové úlohy
|
||||
|
||||
- Zahrnúť transformery a predtrénované modely
|
||||
- Nájsť optimálne hyperparametre
|
||||
- Natrénovať vlastné WordEmbedding (fasttext).
|
||||
- trénovanie modelu Spacy 2, kompletné skripty
|
||||
- trénovanie modelu Spacy 3 do SNK POS tagsetu (ver. 3.0), kompletné skripty
|
||||
- trénovanie modelu Spacy 3 do UD tagsetu (ver. 3.1.), kompletné skripty
|
||||
- zahrnuté slovné vektory Fasttext Common Crawl
|
||||
- Trénovanie Dependency, POS pomocu UD Corpus
|
||||
- Trénovanie NER pomocou automatického korpusu WikiNER (druhý model).
|
||||
|
||||
## Budúce úlohy
|
||||
|
||||
- Zahrnúť predtrénované modely (MultilingualBert, SlovakBert....).
|
||||
- Nájsť optimálne hyperparametre.
|
||||
- Zostaviť korpus pomenovaných entít.
|
||||
- Zaradiť model do oficiálnej distribúcie Explosion AI, podmienka je vlastný korpus pomenovaných entít.
|
||||
|
||||
## Neprioritné úlohy (zásobník)
|
||||
|
||||
- Zaradiť vlastné WordEmbedding (fasttext).
|
||||
- Pridať lexikálne pravidlá (skratky, stop slová) do oficiálnej distrubúcie Spacy.
|
||||
- Zaradiť MultextEast do trénovania. Tam je ale potrebné konvertovať tagy do UD.
|
||||
|
||||
## Súvisiace projekty
|
||||
|
||||
|
Loading…
Reference in New Issue
Block a user