zpwiki

History

dano a34220248b Update 'pages/topics/bert/README.md'		2021-10-21 11:20:15 +00:00
..
README.md	Update 'pages/topics/bert/README.md'	2021-10-21 11:20:15 +00:00

README.md

title	published	author
Jazykový model slovenského jazyka	true	Daniel Hládek

! Cieľ: ! ! - Natrénovať a vyhodnotiť slovenský jazykový model typu BERT z korpusu webových textov

Súvisiace projekty

SlovakBERT od Kinit, a článok
SK Quad - Slovak Question Answering Dataset
bakalárska práca Ondrej Megela
https://git.kemt.fei.tuke.sk/dano/bert-train

Hotové úlohy

Vyhodnotenie na SK SQUAD, UDP POS tagging
Trénovacie skripty
Dotrénovaný model multilingual BERT base na SK QUAD, funguje demo skript. Nefunguje exaktné vyhodnotenie.
Natrénovaný model Electra-small 128, 256 batch size, learning 2e-4, skweb2017dedup, Slovník 32K wordpiece, 0.83 POS, 0.51 Squad

Budúce úlohy

Konvertovať do Transformers pomocou ransformers/src/transformers/models/electra/convert_electra_original_tf_checkpoint_to_pytorch.py
Pridať OSCAR a Wikipedia do trénovania.
Trénovanie na TPU Google Colab
Natrénovať Electra Base.
Dokončiť SK SQUAD databázu pre exaktné vyhodnotenie.
Pripraviť aj iné množiny na vyhodnotnie: kategorizácia textu na SCNC1.

Poznámky

Nie každý model je vhodný na QA. Je potrebné aby mal veľký rozmer vstupného vektora aby aj dlhší odsek mohol byť na vstupe. Z toho dôvodu 128 "small model" asi nestačí na QA.
Väčší vstupný rozmer je obmedzený veľkosťou RAM pri trénovaní.
Electra vie využiť iba jednu Titan kartu, druhú zbytočne blokuje.
Trénovanie base electra trvá cca 40 dní na jednej karte.
Trénovanie electra small trvá asi 3 dni na jednej karte Titan RTX, ale model už ďalej nekonverguje po jednom dni.
Trénovanie electra small trvá asi 7 dní na jednej karte GTX1080
Dotrénovanie trvá iba niekoľko hodín.
Electric small 128 nefunguje na Quadre kvôli pamäti,
Electra small 512/32 batch funguje na Titane.
Spotrebu pamäte ovplyvňujú veľkosť vstupného vektora, veľkosť trénovacej dávky.
V SLovak Bert bola veľkosť vstupného vektora 512. Máme toľko pamäte?
learning rate by malo byť priamo úmerné s batch_size. Malý batch size by mal mať malý learning rate.
electra prepare skript defaultne odstraňuje diakritiku a dáva malé písmená.
ELECTRA ingoruje pokyn na ponechanie diakritiky!!!! Ponechanie diakritiky funguje iba pre "prepare", inak sa diakritika stále odstraňuje. Ne ponechanie diakritiky sú potrebné úpravy v zdrojových kódoch.
TODO: Vytvorenie slovníka ako pri BERT https://github.com/google-research/electra/issues/58

Budúci výskum

Zistiť aký je optimálny počet tokenov? V Slovak BERT použili 50k.
Pripraviť webové demo na slovenské QA.
Integrovať QA s dialógovým systémom.
Integrovať QA s vyhľadávačom.
Zostaviť multilinguálny BERT model.
Natrénovať BART model.
Natrénovať model založený na znakoch.
Adaptovať SlovakBERT na SQUAD. To znamená dorobiť úlohu SQUAD do fairseq.

Hardvérové požiadavky

https://medium.com/nvidia-ai/how-to-scale-the-bert-training-with-nvidia-gpus-c1575e8eaf71:

When the mini-batch size n is multiplied by k, we should multiply the starting learning rate η by the square root of k as some theories may suggest. However, with experiments from multiple researchers, linear scaling shows better results, i.e. multiply the starting learning rate by k instead.

| BERT Large | 330M | | BERT Base | 110M |

Väčšia veľkosť vstupného vektora => menšia veľkosť dávky => menší parameter učenia => pomalšie učenie