Update 'pages/topics/bert/README.md'

2022-01-19 13:37:54 +00:00 · 2022-01-19 13:37:54 +00:00 · 0f23f2e051
commit 0f23f2e051
parent 9aaa261651
1 changed files with 16 additions and 1 deletions
--- a/pages/topics/bert/README.md
+++ b/pages/topics/bert/README.md
@ -26,6 +26,18 @@ author: Daniel Hládek
 ## Hotové úlohy
 ## Trénovací korpus
 Deduplikované a tokenizované webové dáta pomocou nášho tokenizátora a deduplikátora. 
 - Wikipédia
 - Oscar Dedup
 - Sita
 - Websucker 2010,2012,2017
 - Websucker 2022 in progress
 Spolu 25 GB po deduplikovaní.
 ### Electra Model
 - Vyhodnotenie Electra na SK SQUAD, UDP POS tagging
@ -45,14 +57,17 @@ author: Daniel Hládek
 - Natrénovaný HF Roberta Small
 - Deduplikovaný webový korpus oscar plus skweb2017
 - tokenizer BPE Roberta
 - natrénovaný roberta base na 17GB korpuse, 0.65 na Squad
 - trénovanie pomocou deepspeed (zrýchľuje cca 2x).
 - pri efektívnej veľkosti dávky 1000 je asi najrýchlejčia konvrergencia pri lr 1e-4. , adam (0.9-0.999).
 ## Budúce  úlohy
 - Pripraviť aj iné množiny na vyhodnotnie: kategorizácia textu na SCNC1.
 - Pridať Wikipedia do trénovania.
 ## Poznámky
 - Dáta z prokuratúry asi zhoršujú model kvôli anonymizácii, skratkám a právnickému jazyku.
 - Nie každý model je vhodný na QA. Je potrebné aby mal veľký rozmer vstupného vektora aby aj dlhší odsek mohol byť na vstupe. Z toho dôvodu 128 "small model" asi nestačí na QA.
 - Väčší vstupný rozmer je obmedzený veľkosťou RAM pri trénovaní. 
 - Electra vie využiť iba jednu Titan kartu, druhú zbytočne blokuje.