From 77296a745c0486975d9f3d3ec61d8c91c26c063a Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Tue, 9 Nov 2021 14:46:47 +0100 Subject: [PATCH] zz --- pages/topics/bert/README.md | 31 +++++++++++++++++++++++-------- 1 file changed, 23 insertions(+), 8 deletions(-) diff --git a/pages/topics/bert/README.md b/pages/topics/bert/README.md index 29e73c9e..88086809 100644 --- a/pages/topics/bert/README.md +++ b/pages/topics/bert/README.md @@ -13,25 +13,41 @@ author: Daniel Hládek - [SlovakBERT](https://github.com/gerulata/slovakbert) od Kinit, a [článok](https://arxiv.org/abs/2109.15254) - [SK Quad](/topics/question) - Slovak Question Answering Dataset - bakalárska práca [Ondrej Megela](/students/2018/ondrej_megela) +- diplomová práza Jozef Olekšák (inprogress, trénovanie electra na colab). - https://git.kemt.fei.tuke.sk/dano/bert-train ## Hotové úlohy -- Vyhodnotenie na SK SQUAD, UDP POS tagging -- Trénovacie skripty -- Dotrénovaný model multilingual BERT base na SK QUAD, funguje demo skript. Nefunguje exaktné vyhodnotenie. +### Electra Model + +- Vyhodnotenie Electra na SK SQUAD, UDP POS tagging +- Trénovacie skripty Electra +- Konvertovanie Electra do Transformers pomocou ransformers/src/transformers/models/electra/convert_electra_original_tf_checkpoint_to_pytorch.py - Natrénovaný model Electra-small 128, 256 batch size, learning 2e-4, skweb2017dedup, Slovník 32K wordpiece, 0.83 POS, 0.51 Squad +### Hugging Face Models Finetuning + +- Dotrénovaný model multilingual BERT base na SK QUAD, funguje demo skript. +- Dotrénovany Slovak Bert na SK QUAD +- Dotrénovaný model multilingual BERT na SQUAD anglickej, overné na slovenskej SK QUAD +- SK Quad Datasets Interface + +### Hugging Face Roberta + +- Natrénovaný HF Roberta Small +- Deduplikovaný webový korpus oscar plus skweb2017 +- tokenizer BPE Roberta + ## Budúce úlohy -- Konvertovať do Transformers pomocou ransformers/src/transformers/models/electra/convert_electra_original_tf_checkpoint_to_pytorch.py -- Pridať OSCAR a Wikipedia do trénovania. - Trénovanie na TPU Google Colab - Natrénovať Electra Base. -- Dokončiť SK SQUAD databázu pre exaktné vyhodnotenie. - Pripraviť aj iné množiny na vyhodnotnie: kategorizácia textu na SCNC1. - +- Trénovanie Roberta Base +- trénovanie XLNet Base +- Tokenizer SentencePiece pre XLNet +- Pridať Wikipedia do trénovania. ## Poznámky @@ -61,7 +77,6 @@ author: Daniel Hládek - Zostaviť multilinguálny BERT model. - Natrénovať BART model. - Natrénovať model založený na znakoch. -- Adaptovať SlovakBERT na SQUAD. To znamená dorobiť úlohu SQUAD do fairseq. ## Hardvérové požiadavky