forked from KEMT/zpwiki
		
	Aktualizovat „pages/students/2016/lukas_pokryvka/README.md“
This commit is contained in:
		
							parent
							
								
									c3e43cf32e
								
							
						
					
					
						commit
						d141499cd6
					
				| @ -93,3 +93,7 @@ Výsledok nebol vôbec presný, čo sa vzhľadom na veľkosť korpusu dalo očak | ||||
|  | ||||
| 
 | ||||
| Keďže som mal problém skript s plným korpusom spustiť na školskom serveri, v ďalšom riešení chcem využiť aj GPU. V úvahu pripadá aj rozdelenie korpusu na viacero častí s tým, že sa zachová kontext. | ||||
| 
 | ||||
| *2. Natrénovanie slovenského modelu pomocou knižnice fasttext* | ||||
| 
 | ||||
| Ako druhú možnosť na natrénovanie slovenského modelu som využil fasttext, knižnicu od Facebook-u. Prostredie a všetky dependencies som si vytvoril pomocou Anacondy. Následne som si naklonoval projekt z gitu (https://github.com/facebookresearch/fastText.git). Fasstext poskytuje jednoduchý nástroj na vyčistenie dát, ktorý všetky slová pretransformuje na lowercase a oddelí ich od čiarok, bodiek, atď... Následne je potrebné správne nastaviť spúšťacie parametre a zvoliť si metódu CBOW alebo skip-gram. V mojom prípade som zvolil 2-gram, dimenzionalitu vektorov 200, a nastavil som počet epochov na 10, pomocou ktorých sa vhybovosť výrazne znížila. Taktiež je možné nastaviť, koľko jadier procesora sa má využívať pre multi-threading. Na dátach o veľkosti približne 13GB trvalo trénovanie takmer 24 hodín. Výstupom su 2 súbory *.bin a *.vec. Prvý súbor obsahuje celý natrénovaný model a môže byť ďalej používaný a načítavaný podľa potreby, druhý súbor obsahuje vektory slov, jeden riadok pre každé slovo.  | ||||
		Loading…
	
		Reference in New Issue
	
	Block a user