Update 'pages/topics/bert/README.md'

2022-01-19 13:37:54 +00:00 · 2022-01-19 13:37:54 +00:00 · 0f23f2e051
commit 0f23f2e051
parent 9aaa261651
1 changed files with 16 additions and 1 deletions
--- a/pages/topics/bert/README.md
+++ b/pages/topics/bert/README.md
@ -26,6 +26,18 @@ author: Daniel Hládek

 ## Hotové úlohy

+## Trénovací korpus
+
+Deduplikované a tokenizované webové dáta pomocou nášho tokenizátora a deduplikátora. 
+
+- Wikipédia
+- Oscar Dedup
+- Sita
+- Websucker 2010,2012,2017
+- Websucker 2022 in progress
+
+Spolu 25 GB po deduplikovaní.
+
 ### Electra Model

 - Vyhodnotenie Electra na SK SQUAD, UDP POS tagging
@ -45,14 +57,17 @@ author: Daniel Hládek
 - Natrénovaný HF Roberta Small
 - Deduplikovaný webový korpus oscar plus skweb2017
 - tokenizer BPE Roberta
+- natrénovaný roberta base na 17GB korpuse, 0.65 na Squad
+- trénovanie pomocou deepspeed (zrýchľuje cca 2x).
+- pri efektívnej veľkosti dávky 1000 je asi najrýchlejčia konvrergencia pri lr 1e-4. , adam (0.9-0.999).

 ## Budúce  úlohy

 - Pripraviť aj iné množiny na vyhodnotnie: kategorizácia textu na SCNC1.
- Pridať Wikipedia do trénovania.

 ## Poznámky

+- Dáta z prokuratúry asi zhoršujú model kvôli anonymizácii, skratkám a právnickému jazyku.
 - Nie každý model je vhodný na QA. Je potrebné aby mal veľký rozmer vstupného vektora aby aj dlhší odsek mohol byť na vstupe. Z toho dôvodu 128 "small model" asi nestačí na QA.
 - Väčší vstupný rozmer je obmedzený veľkosťou RAM pri trénovaní. 
 - Electra vie využiť iba jednu Titan kartu, druhú zbytočne blokuje.