diff --git a/pages/students/2016/dominik_nagy/timovy_projekt/REAMDE.md b/pages/students/2016/dominik_nagy/timovy_projekt/REAMDE.md index a534c532..e7e8923e 100644 --- a/pages/students/2016/dominik_nagy/timovy_projekt/REAMDE.md +++ b/pages/students/2016/dominik_nagy/timovy_projekt/REAMDE.md @@ -19,7 +19,7 @@ vypočíta postupnosť výstupov (y 1 ,...,yT) iteráciu nasledujúcich rovníc: ### ℎ𝑡 = 𝑠𝑖𝑔𝑚(𝑊ℎ𝑥𝑥𝑡 + 𝑊ℎℎ𝑡−1) -### 푦푡= 푊푦ℎℎ푡 +### 𝑦𝑡 = 𝑊𝑦ℎt RNN môže ľahko mapovať sekvencie na sekvencie vždy, keď je zarovnanie medzi vstupmi výstupmi známe vopred. Nie je však jasné, ako aplikovať RNN na problémy, ktorých vstupné a výstupné sekvencie @@ -51,6 +51,7 @@ ktorú potrebuje model tradičného strojového prekladu. [6][7] ![Encoder-decoder](encoder_decoder.png) + 1 Ilustrácia RNN Encoder-Decoder [5] # Transformer a Attention @@ -76,25 +77,17 @@ zodpovedajúcim kľúčom.[9] Vstup pozostáva z dopytov a kľúčov rozmeru _dk_ a hodnôt rozmerov _dv._ Vypočítajú sa „dot products“ všetkých dopytov s kľúčmi, vydelia sa s _√dk_ a použije sa funkcia „softmax” na získane váhy hodnôt. [9] -### 퐴푡푡푒푛푡푖표푛(푄,퐾,푉)=푠표푓푡푚푎푥( - -### 푄퐾푇 - -### √푑푘 - -### )푉 +![Attention](attention.png) ## Multi-Head Attention Silnou stránkou Multi-Head Attentionu je schopnosť spoločne sa venovať informáciám z rôznych reprezentačných podpriestorov na rôznych pozíciách.[10] [9] -``` -푀푢푙푡푖퐻푒푎푑(푄,퐾,푉)=퐶표푛푐푎푡(ℎ푒푎푑 1 ,...,ℎ푒푎푑ℎ)푊푂 -``` -``` -푤ℎ푒푟푒 ℎ푒푎푑푖=퐴푡푡푒푛푡푖표푛(푄푊푖푄,퐾푊푖퐾,푉푊푖푉) -``` + +### 𝑀𝑢𝑙𝑡𝑖𝐻𝑒𝑎𝑑(𝑄,𝐾, 𝑉) = 𝐶𝑜𝑛𝑐𝑎𝑡(ℎ𝑒𝑎𝑑1, … , ℎ𝑒𝑎𝑑ℎ)𝑊O + +### 𝑤ℎ𝑒𝑟𝑒 ℎ𝑒𝑎𝑑𝑖 = 𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛(𝑄𝑊𝑖𝑄,𝐾𝑊𝑖K,𝑉𝑊𝑖V) # Zoznam použitej literatúry