forked from KEMT/zpwiki
Update 'pages/topics/bert/README.md'
This commit is contained in:
parent
9aaa261651
commit
0f23f2e051
@ -26,6 +26,18 @@ author: Daniel Hládek
|
|||||||
|
|
||||||
## Hotové úlohy
|
## Hotové úlohy
|
||||||
|
|
||||||
|
## Trénovací korpus
|
||||||
|
|
||||||
|
Deduplikované a tokenizované webové dáta pomocou nášho tokenizátora a deduplikátora.
|
||||||
|
|
||||||
|
- Wikipédia
|
||||||
|
- Oscar Dedup
|
||||||
|
- Sita
|
||||||
|
- Websucker 2010,2012,2017
|
||||||
|
- Websucker 2022 in progress
|
||||||
|
|
||||||
|
Spolu 25 GB po deduplikovaní.
|
||||||
|
|
||||||
### Electra Model
|
### Electra Model
|
||||||
|
|
||||||
- Vyhodnotenie Electra na SK SQUAD, UDP POS tagging
|
- Vyhodnotenie Electra na SK SQUAD, UDP POS tagging
|
||||||
@ -45,14 +57,17 @@ author: Daniel Hládek
|
|||||||
- Natrénovaný HF Roberta Small
|
- Natrénovaný HF Roberta Small
|
||||||
- Deduplikovaný webový korpus oscar plus skweb2017
|
- Deduplikovaný webový korpus oscar plus skweb2017
|
||||||
- tokenizer BPE Roberta
|
- tokenizer BPE Roberta
|
||||||
|
- natrénovaný roberta base na 17GB korpuse, 0.65 na Squad
|
||||||
|
- trénovanie pomocou deepspeed (zrýchľuje cca 2x).
|
||||||
|
- pri efektívnej veľkosti dávky 1000 je asi najrýchlejčia konvrergencia pri lr 1e-4. , adam (0.9-0.999).
|
||||||
|
|
||||||
## Budúce úlohy
|
## Budúce úlohy
|
||||||
|
|
||||||
- Pripraviť aj iné množiny na vyhodnotnie: kategorizácia textu na SCNC1.
|
- Pripraviť aj iné množiny na vyhodnotnie: kategorizácia textu na SCNC1.
|
||||||
- Pridať Wikipedia do trénovania.
|
|
||||||
|
|
||||||
## Poznámky
|
## Poznámky
|
||||||
|
|
||||||
|
- Dáta z prokuratúry asi zhoršujú model kvôli anonymizácii, skratkám a právnickému jazyku.
|
||||||
- Nie každý model je vhodný na QA. Je potrebné aby mal veľký rozmer vstupného vektora aby aj dlhší odsek mohol byť na vstupe. Z toho dôvodu 128 "small model" asi nestačí na QA.
|
- Nie každý model je vhodný na QA. Je potrebné aby mal veľký rozmer vstupného vektora aby aj dlhší odsek mohol byť na vstupe. Z toho dôvodu 128 "small model" asi nestačí na QA.
|
||||||
- Väčší vstupný rozmer je obmedzený veľkosťou RAM pri trénovaní.
|
- Väčší vstupný rozmer je obmedzený veľkosťou RAM pri trénovaní.
|
||||||
- Electra vie využiť iba jednu Titan kartu, druhú zbytočne blokuje.
|
- Electra vie využiť iba jednu Titan kartu, druhú zbytočne blokuje.
|
||||||
|
Loading…
Reference in New Issue
Block a user