forked from KEMT/zpwiki
		
	Add 'pages/students/2016/dominik_nagy/timovy_projekt/REAMDE.md'
pridanie resersu
This commit is contained in:
		
							parent
							
								
									f736d9cfbe
								
							
						
					
					
						commit
						d7f02128a5
					
				
							
								
								
									
										129
									
								
								pages/students/2016/dominik_nagy/timovy_projekt/REAMDE.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										129
									
								
								pages/students/2016/dominik_nagy/timovy_projekt/REAMDE.md
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,129 @@ | ||||
| # Sequence-to-sequence | ||||
| 
 | ||||
| Hlboké neurónové siete (Deep Neural Networks – DNN) sú veľmi výkonné modely strojového | ||||
| učenia, ktoré sú určené na riešenie zložitých problémov, ako je rozpoznávanie reči či vizuálnych objekov. | ||||
| Hlboké neurónové siete môžu vykonávať ľubobovoľný paralelný výpočet na malý počet krokov. Veľké | ||||
| DNN môžu byť trénované pokiaľ máme dostupné obrovské množstvo dát. Napriek svojej flexibilite a sile, | ||||
| hlboké neurónové siete sa dajú aplikovať iba na problémy, ktorých vstupy môžu byť rozumne kódované | ||||
| vektormi s fixným rozmerom. [1] | ||||
| 
 | ||||
| Sequence-to-sequence alebo postupnosť sekvencií je o trénovaní modelov na konverziu z jednej | ||||
| domény na sekvencie do inej doméne ako napríklad preloženie viet z angličtiny do slovenčiny. | ||||
| Postupnosť sekvencií mapuje jednu sekvenciu neurčenej dĺžky na inú sekvenciu, ktorej dĺžka je tiež | ||||
| neznáma. [2] | ||||
| 
 | ||||
| Rekurentná Neurónová Sieť (po anglicky Recurrent Neural Network, ďalej už len RNN) je prirodená | ||||
| generalizácia dopredných neurónových sietí pre sekvencie. Postupnosť vstupu (x 1 ,...,xT), štandardné RNN | ||||
| vypočíta postupnosť výstupov (y 1 ,...,yT) iteráciu nasledujúcich rovníc: | ||||
| 
 | ||||
| ### ℎ푡=푠푖푔푚(푊ℎ푥푥푡+푊ℎℎℎ푡− 1 ) | ||||
| 
 | ||||
| ### 푦푡= 푊푦ℎℎ푡 | ||||
| 
 | ||||
| RNN môže ľahko mapovať sekvencie na sekvencie vždy, keď je zarovnanie medzi vstupmi výstupmi | ||||
| známe vopred. Nie je však jasné, ako aplikovať RNN na problémy, ktorých vstupné a výstupné sekvencie | ||||
| majú rôzne dĺžky s komplikovanými a nemonotonickými vzťahmi. Najjednoduchšia stratégia pre | ||||
| všeobecné sekvenčńé učenie je mapovať vstupnú sekvenciu na vektor s pevnou veľkosťou pomocou | ||||
| jedného RNN a potom mapovať vektor na cieľovú sekvenciu s iným RNN.[2] [3] | ||||
| 
 | ||||
| ## Convolutional neural networks | ||||
| 
 | ||||
| Konvolučné neurónové siete sú menej bežné pre sekvenčné modelovanie, napriek niekoľkým výhodám. | ||||
| V porovnaní s opakujúcimi sa vrstvami, konvolácie vytvárajú reprezentáciu pre kontexty s pevnou | ||||
| veľkosťou, avšak efektívna veľkosť kontextu siete sa dá ľahko zväčšiť naskladaním niekoľkých vrstiev na | ||||
| seba. To umožňuje presne ovládať maximálnu dĺžku závislostí, ktoré sa majú modelovať. Konvolučné | ||||
| siete nezávisia od výpočtov predchádzajúceho časového kroku, a preto umožňujú paralelizáciu nad | ||||
| každým prvkom v sekvencii. Tento kontrast v RNN, ktorý udržiava skrytý stav celej minulosti, zabraňuje | ||||
| paralelnému výpočtu v danej sekvencii [4] | ||||
| 
 | ||||
| 
 | ||||
| # Encoder-decoder | ||||
| 
 | ||||
| Hlboké neurónové siete preukázali veľký úspech v rôznych aplikáciách, ako napríklad | ||||
| rozpoznávanie objektov alebo rozpoznávanie reči. Nedávno sa objavil nový prístup k štatistickému | ||||
| strojovému prekladu založený na neurónových sieťach. Tento nový prístup je inšpirovaný podľa | ||||
| nedávneho trendu hlbokého reprezentatívneho učenia. Všetky modely neurónovej siete použité v [5] | ||||
| pozostávajú z kódera a dekódera (encoder, decoder) Kóder extrahuje vektor s pevnou dĺžkou | ||||
| reprezentujúce z vety s premenlivou dĺžkou a z tohto znázornenia dekóder generuje správny cieľový | ||||
| preklad s premenlivou dĺžkou. Model neurónového strojového prekladu vyžaduje iba zlomok pamäte, | ||||
| ktorú potrebuje model tradičného strojového prekladu. [6][7] | ||||
| 
 | ||||
| ``` | ||||
| 1 Ilustrácia RNN Encoder-Decoder [5] | ||||
| ``` | ||||
| # Transformer a Attention | ||||
| 
 | ||||
| Opakujúce sa seq2seq modely, ktoré používajú encoder-decoder architektúru dosiahli veľký | ||||
| pokrok v rozpoznávaní reči. Avšak, majú nevýhodu v rýchlosti tréningu. Vnútorné opakovanie obmedzuje | ||||
| parareliláziu tréningu. Neopakujúci sa seq2seq model nazývaný Transformer sa spolieha na mechanizmy | ||||
| Attention, aby sa naučil pozičným závislostiam, ktoré je možné trénovať rýchlejšie s väčšou | ||||
| účinnosťou.[8] Attention model sa nesnaží preložiť vetu naraz, preklad prebieha postupne, preloží najprv | ||||
| jednu časť vety a potom pokračuje na ďalšiu casť, ako človek. | ||||
| 
 | ||||
| Attention model by sa dal vysvetliť ako funckiu, ktorá mapuje dopyt a sadu páru kľúč-hodnota na výstup, | ||||
| kde dopyt, hodnoty, kľúče a výstup sú vektory. Výstup sa počíta ako vážená suma (weighted sum) | ||||
| hodnôt, kde váha priradená každej hodnote sa vypočíta poďla funcie kompatibility dopytu so | ||||
| zodpovedajúcim kľúčom.[9] | ||||
| 
 | ||||
| 
 | ||||
| ``` | ||||
| 2 Scaled Dot-Product Attention a Multi-Head attention | ||||
| ``` | ||||
| ## Scaled Dot-Product Attention | ||||
| 
 | ||||
| Vstup pozostáva z dopytov a kľúčov rozmeru _dk_ a hodnôt rozmerov _dv._ Vypočítajú sa „dot products“ | ||||
| všetkých dopytov s kľúčmi, vydelia sa s _√dk_ a použije sa funkcia „softmax” na získane váhy hodnôt. [9] | ||||
| 
 | ||||
| ### 퐴푡푡푒푛푡푖표푛(푄,퐾,푉)=푠표푓푡푚푎푥( | ||||
| 
 | ||||
| ### 푄퐾푇 | ||||
| 
 | ||||
| ### √푑푘 | ||||
| 
 | ||||
| ### )푉 | ||||
| 
 | ||||
| ## Multi-Head Attention | ||||
| 
 | ||||
| Silnou stránkou Multi-Head Attentionu je schopnosť spoločne sa venovať informáciám z rôznych | ||||
| reprezentačných podpriestorov na rôznych pozíciách.[10] [9] | ||||
| 
 | ||||
| ``` | ||||
| 푀푢푙푡푖퐻푒푎푑(푄,퐾,푉)=퐶표푛푐푎푡(ℎ푒푎푑 1 ,...,ℎ푒푎푑ℎ)푊푂 | ||||
| ``` | ||||
| ``` | ||||
| 푤ℎ푒푟푒 ℎ푒푎푑푖=퐴푡푡푒푛푡푖표푛(푄푊푖푄,퐾푊푖퐾,푉푊푖푉) | ||||
| ``` | ||||
| 
 | ||||
| # Zoznam použitej literatúry | ||||
| 
 | ||||
| [1] I. Sutskever Google, O. Vinyals Google, and Q. V Le Google, “Sequence to Sequence Learning with | ||||
| Neural Networks.” | ||||
| 
 | ||||
| [2] M. P. For, “Natural Language Processing in Action,” _Online_ , vol. 80, no. 1. p. 453, 2017. | ||||
| 
 | ||||
| [3] “Sequence to Sequence Learning with Neural Networks – arXiv Vanity.” [Online]. Available: | ||||
| https://www.arxiv-vanity.com/papers/1409.3215/. [Accessed: 20-Dec-2019]. | ||||
| 
 | ||||
| [4] J. Gehring, M. Auli, D. Grangier, D. Yarats, and Y. N. Dauphin, “Convolutional Sequence to | ||||
| Sequence Learning.” | ||||
| 
 | ||||
| [5] K. Cho _et al._ , “Learning phrase representations using RNN encoder-decoder for statistical | ||||
| machine translation,” in _EMNLP 2014 - 2014 Conference on Empirical Methods in Natural | ||||
| Language Processing, Proceedings of the Conference_ , 2014, pp. 1724–1734. | ||||
| 
 | ||||
| [6] R. Pascanu, T. Mikolov, and Y. Bengio, “On the difficulty of training recurrent neural networks,” in | ||||
| _30th International Conference on Machine Learning, ICML 2013_ , 2013, no. PART 3, pp. 2347– | ||||
| 2355. | ||||
| 
 | ||||
| [7] K. Cho, B. Van Merriënboer, D. Bahdanau, and Y. Bengio, “On the Properties of Neural Machine | ||||
| Translation: Encoder-Decoder Approaches.” | ||||
| 
 | ||||
| [8] L. Dong, S. Xu, and B. Xu, _SPEECH-TRANSFORMER: A NO-RECURRENCE SEQUENCE-TO-SEQUENCE | ||||
| MODEL FOR SPEECH RECOGNITION_.. | ||||
| 
 | ||||
| [9] A. Vaswani _et al._ , “Attention Is All You Need.” | ||||
| 
 | ||||
| [10] J. Li, Z. Tu, B. Yang, M. R. Lyu, and T. Zhang, “Multi-Head Attention with Disagreement | ||||
| Regularization.” | ||||
| 
 | ||||
| 
 | ||||
		Loading…
	
		Reference in New Issue
	
	Block a user