diff --git a/pages/topics/bert/README.md b/pages/topics/bert/README.md index c04ebe24..8ad46ae0 100644 --- a/pages/topics/bert/README.md +++ b/pages/topics/bert/README.md @@ -60,6 +60,7 @@ Spolu 25 GB po deduplikovaní. - natrénovaný roberta base na 17GB korpuse, 0.65 na Squad - trénovanie pomocou deepspeed (zrýchľuje cca 2x). - pri efektívnej veľkosti dávky 1000 je asi najrýchlejčia konvrergencia pri lr 1e-4. , adam (0.9-0.999). +- Tokenizátor BPE treba trénovať na celkom korpuse. ## Budúce úlohy