diff --git a/pages/topics/bert/README.md b/pages/topics/bert/README.md index cf6b10396..c04ebe244 100644 --- a/pages/topics/bert/README.md +++ b/pages/topics/bert/README.md @@ -26,6 +26,18 @@ author: Daniel Hládek ## Hotové úlohy +## Trénovací korpus + +Deduplikované a tokenizované webové dáta pomocou nášho tokenizátora a deduplikátora. + +- Wikipédia +- Oscar Dedup +- Sita +- Websucker 2010,2012,2017 +- Websucker 2022 in progress + +Spolu 25 GB po deduplikovaní. + ### Electra Model - Vyhodnotenie Electra na SK SQUAD, UDP POS tagging @@ -45,14 +57,17 @@ author: Daniel Hládek - Natrénovaný HF Roberta Small - Deduplikovaný webový korpus oscar plus skweb2017 - tokenizer BPE Roberta +- natrénovaný roberta base na 17GB korpuse, 0.65 na Squad +- trénovanie pomocou deepspeed (zrýchľuje cca 2x). +- pri efektívnej veľkosti dávky 1000 je asi najrýchlejčia konvrergencia pri lr 1e-4. , adam (0.9-0.999). ## Budúce úlohy - Pripraviť aj iné množiny na vyhodnotnie: kategorizácia textu na SCNC1. -- Pridať Wikipedia do trénovania. ## Poznámky +- Dáta z prokuratúry asi zhoršujú model kvôli anonymizácii, skratkám a právnickému jazyku. - Nie každý model je vhodný na QA. Je potrebné aby mal veľký rozmer vstupného vektora aby aj dlhší odsek mohol byť na vstupe. Z toho dôvodu 128 "small model" asi nestačí na QA. - Väčší vstupný rozmer je obmedzený veľkosťou RAM pri trénovaní. - Electra vie využiť iba jednu Titan kartu, druhú zbytočne blokuje.