Update 'pages/topics/bert/README.md'

This commit is contained in:
dano 2022-01-19 13:37:54 +00:00
parent 9aaa261651
commit 0f23f2e051

View File

@ -26,6 +26,18 @@ author: Daniel Hládek
## Hotové úlohy
## Trénovací korpus
Deduplikované a tokenizované webové dáta pomocou nášho tokenizátora a deduplikátora.
- Wikipédia
- Oscar Dedup
- Sita
- Websucker 2010,2012,2017
- Websucker 2022 in progress
Spolu 25 GB po deduplikovaní.
### Electra Model
- Vyhodnotenie Electra na SK SQUAD, UDP POS tagging
@ -45,14 +57,17 @@ author: Daniel Hládek
- Natrénovaný HF Roberta Small
- Deduplikovaný webový korpus oscar plus skweb2017
- tokenizer BPE Roberta
- natrénovaný roberta base na 17GB korpuse, 0.65 na Squad
- trénovanie pomocou deepspeed (zrýchľuje cca 2x).
- pri efektívnej veľkosti dávky 1000 je asi najrýchlejčia konvrergencia pri lr 1e-4. , adam (0.9-0.999).
## Budúce úlohy
- Pripraviť aj iné množiny na vyhodnotnie: kategorizácia textu na SCNC1.
- Pridať Wikipedia do trénovania.
## Poznámky
- Dáta z prokuratúry asi zhoršujú model kvôli anonymizácii, skratkám a právnickému jazyku.
- Nie každý model je vhodný na QA. Je potrebné aby mal veľký rozmer vstupného vektora aby aj dlhší odsek mohol byť na vstupe. Z toho dôvodu 128 "small model" asi nestačí na QA.
- Väčší vstupný rozmer je obmedzený veľkosťou RAM pri trénovaní.
- Electra vie využiť iba jednu Titan kartu, druhú zbytočne blokuje.