Add 'pages/students/2016/dominik_nagy/timovy_projekt/REAMDE.md'

pridanie resersu
2020-01-24 13:58:49 +00:00 · 2020-01-24 13:58:49 +00:00 · d7f02128a5
commit d7f02128a5
parent f736d9cfbe
1 changed files with 129 additions and 0 deletions
--- a/pages/students/2016/dominik_nagy/timovy_projekt/REAMDE.md
+++ b/pages/students/2016/dominik_nagy/timovy_projekt/REAMDE.md
@ -0,0 +1,129 @@
+# Sequence-to-sequence
+
+Hlboké neurónové siete (Deep Neural Networks – DNN) sú veľmi výkonné modely strojového
+učenia, ktoré sú určené na riešenie zložitých problémov, ako je rozpoznávanie reči či vizuálnych objekov.
+Hlboké neurónové siete môžu vykonávať ľubobovoľný paralelný výpočet na malý počet krokov. Veľké
+DNN môžu byť trénované pokiaľ máme dostupné obrovské množstvo dát. Napriek svojej flexibilite a sile,
+hlboké neurónové siete sa dajú aplikovať iba na problémy, ktorých vstupy môžu byť rozumne kódované
+vektormi s fixným rozmerom. [1]
+
+Sequence-to-sequence alebo postupnosť sekvencií je o trénovaní modelov na konverziu z jednej
+domény na sekvencie do inej doméne ako napríklad preloženie viet z angličtiny do slovenčiny.
+Postupnosť sekvencií mapuje jednu sekvenciu neurčenej dĺžky na inú sekvenciu, ktorej dĺžka je tiež
+neznáma. [2]
+
+Rekurentná Neurónová Sieť (po anglicky Recurrent Neural Network, ďalej už len RNN) je prirodená
+generalizácia dopredných neurónových sietí pre sekvencie. Postupnosť vstupu (x 1 ,...,xT), štandardné RNN
+vypočíta postupnosť výstupov (y 1 ,...,yT) iteráciu nasledujúcich rovníc:
+
+### ℎ푡=푠푖푔푚(푊ℎ푥푥푡+푊ℎℎℎ푡− 1 )
+
+### 푦푡= 푊푦ℎℎ푡
+
+RNN môže ľahko mapovať sekvencie na sekvencie vždy, keď je zarovnanie medzi vstupmi výstupmi
+známe vopred. Nie je však jasné, ako aplikovať RNN na problémy, ktorých vstupné a výstupné sekvencie
+majú rôzne dĺžky s komplikovanými a nemonotonickými vzťahmi. Najjednoduchšia stratégia pre
+všeobecné sekvenčńé učenie je mapovať vstupnú sekvenciu na vektor s pevnou veľkosťou pomocou
+jedného RNN a potom mapovať vektor na cieľovú sekvenciu s iným RNN.[2] [3]
+
+## Convolutional neural networks
+
+Konvolučné neurónové siete sú menej bežné pre sekvenčné modelovanie, napriek niekoľkým výhodám.
+V porovnaní s opakujúcimi sa vrstvami, konvolácie vytvárajú reprezentáciu pre kontexty s pevnou
+veľkosťou, avšak efektívna veľkosť kontextu siete sa dá ľahko zväčšiť naskladaním niekoľkých vrstiev na
+seba. To umožňuje presne ovládať maximálnu dĺžku závislostí, ktoré sa majú modelovať. Konvolučné
+siete nezávisia od výpočtov predchádzajúceho časového kroku, a preto umožňujú paralelizáciu nad
+každým prvkom v sekvencii. Tento kontrast v RNN, ktorý udržiava skrytý stav celej minulosti, zabraňuje
+paralelnému výpočtu v danej sekvencii [4]
+
+
+# Encoder-decoder
+
+Hlboké neurónové siete preukázali veľký úspech v rôznych aplikáciách, ako napríklad
+rozpoznávanie objektov alebo rozpoznávanie reči. Nedávno sa objavil nový prístup k štatistickému
+strojovému prekladu založený na neurónových sieťach. Tento nový prístup je inšpirovaný podľa
+nedávneho trendu hlbokého reprezentatívneho učenia. Všetky modely neurónovej siete použité v [5]
+pozostávajú z kódera a dekódera (encoder, decoder) Kóder extrahuje vektor s pevnou dĺžkou
+reprezentujúce z vety s premenlivou dĺžkou a z tohto znázornenia dekóder generuje správny cieľový
+preklad s premenlivou dĺžkou. Model neurónového strojového prekladu vyžaduje iba zlomok pamäte,
+ktorú potrebuje model tradičného strojového prekladu. [6][7]
+
+```
+1 Ilustrácia RNN Encoder-Decoder [5]
+```
+# Transformer a Attention
+
+Opakujúce sa seq2seq modely, ktoré používajú encoder-decoder architektúru dosiahli veľký
+pokrok v rozpoznávaní reči. Avšak, majú nevýhodu v rýchlosti tréningu. Vnútorné opakovanie obmedzuje
+parareliláziu tréningu. Neopakujúci sa seq2seq model nazývaný Transformer sa spolieha na mechanizmy
+Attention, aby sa naučil pozičným závislostiam, ktoré je možné trénovať rýchlejšie s väčšou
+účinnosťou.[8] Attention model sa nesnaží preložiť vetu naraz, preklad prebieha postupne, preloží najprv
+jednu časť vety a potom pokračuje na ďalšiu casť, ako človek.
+
+Attention model by sa dal vysvetliť ako funckiu, ktorá mapuje dopyt a sadu páru kľúč-hodnota na výstup,
+kde dopyt, hodnoty, kľúče a výstup sú vektory. Výstup sa počíta ako vážená suma (weighted sum)
+hodnôt, kde váha priradená každej hodnote sa vypočíta poďla funcie kompatibility dopytu so
+zodpovedajúcim kľúčom.[9]
+
+
+```
+2 Scaled Dot-Product Attention a Multi-Head attention
+```
+## Scaled Dot-Product Attention
+
+Vstup pozostáva z dopytov a kľúčov rozmeru _dk_ a hodnôt rozmerov _dv._ Vypočítajú sa „dot products“
+všetkých dopytov s kľúčmi, vydelia sa s _√dk_ a použije sa funkcia „softmax” na získane váhy hodnôt. [9]
+
+### 퐴푡푡푒푛푡푖표푛(푄,퐾,푉)=푠표푓푡푚푎푥(
+
+### 푄퐾푇
+
+### √푑푘
+
+### )푉
+
+## Multi-Head Attention
+
+Silnou stránkou Multi-Head Attentionu je schopnosť spoločne sa venovať informáciám z rôznych
+reprezentačných podpriestorov na rôznych pozíciách.[10] [9]
+
+```
+푀푢푙푡푖퐻푒푎푑(푄,퐾,푉)=퐶표푛푐푎푡(ℎ푒푎푑 1 ,...,ℎ푒푎푑ℎ)푊푂
+```
+```
+푤ℎ푒푟푒 ℎ푒푎푑푖=퐴푡푡푒푛푡푖표푛(푄푊푖푄,퐾푊푖퐾,푉푊푖푉)
+```
+
+# Zoznam použitej literatúry
+
+[1] I. Sutskever Google, O. Vinyals Google, and Q. V Le Google, “Sequence to Sequence Learning with
+Neural Networks.”
+
+[2] M. P. For, “Natural Language Processing in Action,” _Online_ , vol. 80, no. 1. p. 453, 2017.
+
+[3] “Sequence to Sequence Learning with Neural Networks – arXiv Vanity.” [Online]. Available:
+https://www.arxiv-vanity.com/papers/1409.3215/. [Accessed: 20-Dec-2019].
+
+[4] J. Gehring, M. Auli, D. Grangier, D. Yarats, and Y. N. Dauphin, “Convolutional Sequence to
+Sequence Learning.”
+
+[5] K. Cho _et al._ , “Learning phrase representations using RNN encoder-decoder for statistical
+machine translation,” in _EMNLP 2014 - 2014 Conference on Empirical Methods in Natural
+Language Processing, Proceedings of the Conference_ , 2014, pp. 1724–1734.
+
+[6] R. Pascanu, T. Mikolov, and Y. Bengio, “On the difficulty of training recurrent neural networks,” in
+_30th International Conference on Machine Learning, ICML 2013_ , 2013, no. PART 3, pp. 2347–
+2355.
+
+[7] K. Cho, B. Van Merriënboer, D. Bahdanau, and Y. Bengio, “On the Properties of Neural Machine
+Translation: Encoder-Decoder Approaches.”
+
+[8] L. Dong, S. Xu, and B. Xu, _SPEECH-TRANSFORMER: A NO-RECURRENCE SEQUENCE-TO-SEQUENCE
+MODEL FOR SPEECH RECOGNITION_..
+
+[9] A. Vaswani _et al._ , “Attention Is All You Need.”
+
+[10] J. Li, Z. Tu, B. Yang, M. R. Lyu, and T. Zhang, “Multi-Head Attention with Disagreement
+Regularization.”
+
+