Update 'pages/topics/bert/README.md'

2022-01-19 13:49:19 +00:00 · 2022-01-19 13:49:19 +00:00 · 0f405f933b
commit 0f405f933b
parent 90565214c3
1 changed files with 5 additions and 0 deletions
--- a/pages/topics/bert/README.md
+++ b/pages/topics/bert/README.md
@ -65,9 +65,14 @@ Spolu 25 GB po deduplikovaní.
 ## Budúce  úlohy
 - Pripraviť aj iné množiny na vyhodnotnie: kategorizácia textu na SCNC1.
 - trénovanie na HPC
 - trénovanie Large modelu
 - trénovanie BART
 ## Poznámky
 - Trénovanie roberta base s deepspeed 5 epoch, 25G korpus trvá 400 hod. BEz deepsdpeed 900 hod. na dvoch kartách.
 - Veľkosť dávky roberta base na jedno zariadenie Titan24GB je 64 pre deepspeed.  
 - Dáta z prokuratúry asi zhoršujú model kvôli anonymizácii, skratkám a právnickému jazyku.
 - Nie každý model je vhodný na QA. Je potrebné aby mal veľký rozmer vstupného vektora aby aj dlhší odsek mohol byť na vstupe. Z toho dôvodu 128 "small model" asi nestačí na QA.
 - Väčší vstupný rozmer je obmedzený veľkosťou RAM pri trénovaní.