forked from KEMT/zpwiki
		
	
		
			
				
	
	
		
			66 lines
		
	
	
		
			2.3 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			66 lines
		
	
	
		
			2.3 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
| ---
 | |
| title: Podpora slovenčiny v knižnici Spacy
 | |
| published: true
 | |
| taxonomy:
 | |
|     category: [project]
 | |
|     tag: [spacy,nn,pos,ner,annotation,nlp]
 | |
|     author: Daniel Hladek
 | |
| ---
 | |
| 
 | |
| [Trénovanie modelov Spacy](https://spacy.io/usage/training)
 | |
| 
 | |
| ## Ciele
 | |
| 
 | |
| - Vytvoriť modul v jazyku Python  pre podporu slovenčiny
 | |
| - Natrénovať štatistické modely:
 | |
|    - pre morfologickú analýzu 
 | |
|    - rozpoznávanie pomenovaných entít
 | |
| - Unifikovaný systém pre predspracovanie slovenského jazyka
 | |
| - Možné aplikácie:
 | |
|     - Podporiť dialógový systém RASA
 | |
|     - Neurónové vyhľadávanie
 | |
| 
 | |
| ## Hotové úlohy
 | |
| 
 | |
| - trénovanie modelu Spacy 2, kompletné skripty
 | |
| - trénovanie modelu Spacy 3 do SNK POS tagsetu (ver. 3.0), kompletné skripty
 | |
| - trénovanie modelu Spacy 3 do UD tagsetu (ver. 3.1.), kompletné skripty
 | |
| - zahrnuté slovné vektory Fasttext Common Crawl
 | |
| - Trénovanie Dependency, POS pomocu UD Corpus
 | |
| - Trénovanie NER pomocou automatického korpusu WikiNER (druhý model).
 | |
| 
 | |
| ## Budúce úlohy
 | |
| 
 | |
| - Zahrnúť predtrénované modely (MultilingualBert, SlovakBert....).
 | |
| - Nájsť optimálne hyperparametre.
 | |
| - Zostaviť korpus pomenovaných entít.
 | |
| - Zaradiť model do oficiálnej distribúcie Explosion AI, podmienka je vlastný korpus pomenovaných entít. 
 | |
| 
 | |
| ## Neprioritné úlohy (zásobník)
 | |
| 
 | |
| - Zaradiť vlastné WordEmbedding (fasttext).
 | |
| - Pridať lexikálne pravidlá (skratky, stop slová) do oficiálnej distrubúcie Spacy. 
 | |
| - Zaradiť MultextEast do trénovania. Tam je ale potrebné konvertovať tagy do UD, napr. pomocou [Interset](https://github.com/dan-zeman/interset)
 | |
| 
 | |
| ## Súvisiace projekty
 | |
| 
 | |
| - Anotácia pomenovaných entít pomocu frameworku [Prodigy](/topics/named-entity).
 | |
| - [Predtrénovanie jazykového modelu](/topics/bert)
 | |
| 
 | |
| ## Repozitár
 | |
| 
 | |
| - https://github.com/hladek/spacy-skmodel
 | |
| - [Repozitár Jozef Olekšák](https://git.kemt.fei.tuke.sk/jo673fv/sk-spacy)(slovenské stop words a pravidlá)
 | |
| - https://files.kemt.fei.tuke.sk/minio/models/spacy/ Hotové spacy modely
 | |
| 
 | |
| ## Ľudia
 | |
| 
 | |
| - [Maroš Harahus](/students/2016/maros_harahus) (štatistické značkovanie)
 | |
| - [Kristián Sopkovič](/students/2019/kristian_sopokovic) (vylepšenie parametrov, transformery)
 | |
| 
 | |
| ## Ukončené projekty
 | |
| 
 | |
| - Jozef Olekšák (slovenské stop words a pravidlá),
 | |
| - [Lukáš Pokrývka](/students/2016/lukas_pokryvka) (Word Embedding Modely)
 | |
| - [Martin Wencel](/students/2018/martin_wencel) demo aplikácia
 |