From 5229e6b576147695247995b779d1c7c48b0085ce Mon Sep 17 00:00:00 2001
From: dano <dhladek@gmail.com>
Date: Wed, 19 Jan 2022 13:55:58 +0000
Subject: [PATCH] Update 'pages/topics/bert/README.md'

---
 pages/topics/bert/README.md | 22 +++++++++++++++-------
 1 file changed, 15 insertions(+), 7 deletions(-)

diff --git a/pages/topics/bert/README.md b/pages/topics/bert/README.md
index 06c640403c..3044a3e3d4 100644
--- a/pages/topics/bert/README.md
+++ b/pages/topics/bert/README.md
@@ -69,13 +69,15 @@ Spolu 25 GB po deduplikovaní.
 - trénovanie Large modelu
 - trénovanie BART
 
-## Poznámky
+## Poznámky Roberta
 
 - Trénovanie roberta base s deepspeed 5 epoch, 25G korpus trvá 400 hod. BEz deepsdpeed 900 hod. na dvoch kartách.
 - Veľkosť dávky roberta base na jedno zariadenie Titan24GB je 64 pre deepspeed.  
 - Dáta z prokuratúry asi zhoršujú model kvôli anonymizácii, skratkám a právnickému jazyku.
-- Nie každý model je vhodný na QA. Je potrebné aby mal veľký rozmer vstupného vektora aby aj dlhší odsek mohol byť na vstupe. Z toho dôvodu 128 "small model" asi nestačí na QA.
-- Väčší vstupný rozmer je obmedzený veľkosťou RAM pri trénovaní. 
+- Konfigurácia deepspeed po čase nastavila lr na nula a trénovanie sa zastavilo.  
+
+## Poznámky Electra
+
 - Electra vie využiť iba jednu Titan kartu, druhú zbytočne blokuje.
 - Trénovanie base electra trvá cca 40 dní na jednej karte.
 - Trénovanie electra small trvá asi 3 dni na jednej karte Titan RTX, ale model už ďalej nekonverguje po jednom dni.
@@ -83,12 +85,18 @@ Spolu 25 GB po deduplikovaní.
 - Dotrénovanie trvá iba niekoľko hodín.
 - Electric small 128 nefunguje na Quadre kvôli pamäti,
 - Electra small 512/32 batch funguje na Titane.
-- Spotrebu pamäte ovplyvňujú veľkosť vstupného vektora, veľkosť trénovacej dávky.
-- V SLovak Bert bola veľkosť vstupného vektora 512. Máme toľko pamäte?
-- learning rate by malo byť priamo úmerné s batch_size. Malý batch size by mal mať malý learning rate.
-- electra prepare skript defaultne odstraňuje diakritiku a dáva malé písmená.
 - ELECTRA ingoruje pokyn na ponechanie diakritiky!!!! Ponechanie diakritiky funguje iba pre "prepare", inak sa diakritika stále odstraňuje. Ne ponechanie diakritiky sú potrebné úpravy v zdrojových kódoch. 
 - TODO: Vytvorenie slovníka ako pri BERT https://github.com/google-research/electra/issues/58 
+- electra prepare skript defaultne odstraňuje diakritiku a dáva malé písmená.
+
+
+## Poznámky ku hyperparametrom
+
+- V SLovak Bert bola veľkosť vstupného vektora 512. Máme toľko pamäte?
+- Spotrebu pamäte ovplyvňujú veľkosť vstupného vektora, veľkosť trénovacej dávky.
+- Nie každý model je vhodný na QA. Je potrebné aby mal veľký rozmer vstupného vektora aby aj dlhší odsek mohol byť na vstupe. Z toho dôvodu 128 "small model" asi nestačí na QA.
+- Väčší vstupný rozmer je obmedzený veľkosťou RAM pri trénovaní. 
+- learning rate by malo byť priamo úmerné s batch_size. Malý batch size by mal mať malý learning rate.
 
 ## Budúci výskum