From 0f23f2e0517d39a2e1ee44de747072e6f9ba3a1f Mon Sep 17 00:00:00 2001
From: dano <dhladek@gmail.com>
Date: Wed, 19 Jan 2022 13:37:54 +0000
Subject: [PATCH] Update 'pages/topics/bert/README.md'

---
 pages/topics/bert/README.md | 17 ++++++++++++++++-
 1 file changed, 16 insertions(+), 1 deletion(-)

diff --git a/pages/topics/bert/README.md b/pages/topics/bert/README.md
index cf6b1039..c04ebe24 100644
--- a/pages/topics/bert/README.md
+++ b/pages/topics/bert/README.md
@@ -26,6 +26,18 @@ author: Daniel Hládek
 
 ## Hotové úlohy
 
+## Trénovací korpus
+
+Deduplikované a tokenizované webové dáta pomocou nášho tokenizátora a deduplikátora. 
+
+- Wikipédia
+- Oscar Dedup
+- Sita
+- Websucker 2010,2012,2017
+- Websucker 2022 in progress
+
+Spolu 25 GB po deduplikovaní.
+
 ### Electra Model
 
 - Vyhodnotenie Electra na SK SQUAD, UDP POS tagging
@@ -45,14 +57,17 @@ author: Daniel Hládek
 - Natrénovaný HF Roberta Small
 - Deduplikovaný webový korpus oscar plus skweb2017
 - tokenizer BPE Roberta
+- natrénovaný roberta base na 17GB korpuse, 0.65 na Squad
+- trénovanie pomocou deepspeed (zrýchľuje cca 2x).
+- pri efektívnej veľkosti dávky 1000 je asi najrýchlejčia konvrergencia pri lr 1e-4. , adam (0.9-0.999).
 
 ## Budúce  úlohy
 
 - Pripraviť aj iné množiny na vyhodnotnie: kategorizácia textu na SCNC1.
-- Pridať Wikipedia do trénovania.
 
 ## Poznámky
 
+- Dáta z prokuratúry asi zhoršujú model kvôli anonymizácii, skratkám a právnickému jazyku.
 - Nie každý model je vhodný na QA. Je potrebné aby mal veľký rozmer vstupného vektora aby aj dlhší odsek mohol byť na vstupe. Z toho dôvodu 128 "small model" asi nestačí na QA.
 - Väčší vstupný rozmer je obmedzený veľkosťou RAM pri trénovaní. 
 - Electra vie využiť iba jednu Titan kartu, druhú zbytočne blokuje.