forked from KEMT/zpwiki
Update 'pages/topics/bert/README.md'
This commit is contained in:
parent
9aaa261651
commit
0f23f2e051
@ -26,6 +26,18 @@ author: Daniel Hládek
|
||||
|
||||
## Hotové úlohy
|
||||
|
||||
## Trénovací korpus
|
||||
|
||||
Deduplikované a tokenizované webové dáta pomocou nášho tokenizátora a deduplikátora.
|
||||
|
||||
- Wikipédia
|
||||
- Oscar Dedup
|
||||
- Sita
|
||||
- Websucker 2010,2012,2017
|
||||
- Websucker 2022 in progress
|
||||
|
||||
Spolu 25 GB po deduplikovaní.
|
||||
|
||||
### Electra Model
|
||||
|
||||
- Vyhodnotenie Electra na SK SQUAD, UDP POS tagging
|
||||
@ -45,14 +57,17 @@ author: Daniel Hládek
|
||||
- Natrénovaný HF Roberta Small
|
||||
- Deduplikovaný webový korpus oscar plus skweb2017
|
||||
- tokenizer BPE Roberta
|
||||
- natrénovaný roberta base na 17GB korpuse, 0.65 na Squad
|
||||
- trénovanie pomocou deepspeed (zrýchľuje cca 2x).
|
||||
- pri efektívnej veľkosti dávky 1000 je asi najrýchlejčia konvrergencia pri lr 1e-4. , adam (0.9-0.999).
|
||||
|
||||
## Budúce úlohy
|
||||
|
||||
- Pripraviť aj iné množiny na vyhodnotnie: kategorizácia textu na SCNC1.
|
||||
- Pridať Wikipedia do trénovania.
|
||||
|
||||
## Poznámky
|
||||
|
||||
- Dáta z prokuratúry asi zhoršujú model kvôli anonymizácii, skratkám a právnickému jazyku.
|
||||
- Nie každý model je vhodný na QA. Je potrebné aby mal veľký rozmer vstupného vektora aby aj dlhší odsek mohol byť na vstupe. Z toho dôvodu 128 "small model" asi nestačí na QA.
|
||||
- Väčší vstupný rozmer je obmedzený veľkosťou RAM pri trénovaní.
|
||||
- Electra vie využiť iba jednu Titan kartu, druhú zbytočne blokuje.
|
||||
|
Loading…
Reference in New Issue
Block a user