forked from KEMT/zpwiki
		
	Aktualizovat „pages/students/2016/lukas_pokryvka/README.md“
This commit is contained in:
		
							parent
							
								
									23146fa9c1
								
							
						
					
					
						commit
						7d650db03c
					
				| @ -53,3 +53,10 @@ Stretnutie 9.3.2020 | ||||
| 
 | ||||
| 
 | ||||
| - Zaujímavá príručka [Word2vec na Spark](http://spark.apache.org/docs/latest/ml-features.html#word2vec) | ||||
| 
 | ||||
| ### Priebeh práce | ||||
| 
 | ||||
| *1. Pokus o natrénovanie modelu pomocou knižnice Gensim* | ||||
| 
 | ||||
| Ako prvý nástroj na zoznámenie sa s trénovaním W2V som zvolil Gensim. Nevýhodou knižnice je, že pri trénovaní nevyužíva GPU v žiadnom prípade. Podľa zdrojov na internete je však Gensim násobne rýchlejšia knižnica pri implementácii na menšie korpusy (https://rare-technologies.com/gensim-word2vec-on-cpu-faster-than-word2veckeras-on-gpu-incubator-student-blog/). Keďže môj korpus má približne 30GB, natrénovanie pomocou Gensim by zrejme nebol najlepší nápad. Preto som si z korpusu vytiahol prvých 10,000 riadkov a otestoval implementáciu na tomto súbore. Celý skript je dostupný na [gensim_W2V.py](./dp2021/scripts/gensim_W2V.py). | ||||
| Výsledok nebol vôbec presný, čo sa vzhľadom na veľkosť korpusu dalo očakávať. Pri slove letisko bola však zhoda vysoká, čo potvrdzuje správnosť implementácie. | ||||
		Loading…
	
		Reference in New Issue
	
	Block a user