From 0f405f933b0da99d5ef3cb2dd8edfa1cc922bbe7 Mon Sep 17 00:00:00 2001 From: dano Date: Wed, 19 Jan 2022 13:49:19 +0000 Subject: [PATCH] Update 'pages/topics/bert/README.md' --- pages/topics/bert/README.md | 5 +++++ 1 file changed, 5 insertions(+) diff --git a/pages/topics/bert/README.md b/pages/topics/bert/README.md index 8ad46ae0ba..06c640403c 100644 --- a/pages/topics/bert/README.md +++ b/pages/topics/bert/README.md @@ -65,9 +65,14 @@ Spolu 25 GB po deduplikovaní. ## Budúce úlohy - Pripraviť aj iné množiny na vyhodnotnie: kategorizácia textu na SCNC1. +- trénovanie na HPC +- trénovanie Large modelu +- trénovanie BART ## Poznámky +- Trénovanie roberta base s deepspeed 5 epoch, 25G korpus trvá 400 hod. BEz deepsdpeed 900 hod. na dvoch kartách. +- Veľkosť dávky roberta base na jedno zariadenie Titan24GB je 64 pre deepspeed. - Dáta z prokuratúry asi zhoršujú model kvôli anonymizácii, skratkám a právnickému jazyku. - Nie každý model je vhodný na QA. Je potrebné aby mal veľký rozmer vstupného vektora aby aj dlhší odsek mohol byť na vstupe. Z toho dôvodu 128 "small model" asi nestačí na QA. - Väčší vstupný rozmer je obmedzený veľkosťou RAM pri trénovaní.