diff --git a/pages/topics/bert/README.md b/pages/topics/bert/README.md index 8ad46ae0ba..06c640403c 100644 --- a/pages/topics/bert/README.md +++ b/pages/topics/bert/README.md @@ -65,9 +65,14 @@ Spolu 25 GB po deduplikovaní. ## Budúce úlohy - Pripraviť aj iné množiny na vyhodnotnie: kategorizácia textu na SCNC1. +- trénovanie na HPC +- trénovanie Large modelu +- trénovanie BART ## Poznámky +- Trénovanie roberta base s deepspeed 5 epoch, 25G korpus trvá 400 hod. BEz deepsdpeed 900 hod. na dvoch kartách. +- Veľkosť dávky roberta base na jedno zariadenie Titan24GB je 64 pre deepspeed. - Dáta z prokuratúry asi zhoršujú model kvôli anonymizácii, skratkám a právnickému jazyku. - Nie každý model je vhodný na QA. Je potrebné aby mal veľký rozmer vstupného vektora aby aj dlhší odsek mohol byť na vstupe. Z toho dôvodu 128 "small model" asi nestačí na QA. - Väčší vstupný rozmer je obmedzený veľkosťou RAM pri trénovaní.