diff --git a/pages/topics/bert/README.md b/pages/topics/bert/README.md index 88086809..ca5062da 100644 --- a/pages/topics/bert/README.md +++ b/pages/topics/bert/README.md @@ -16,6 +16,12 @@ author: Daniel Hládek - diplomová práza Jozef Olekšák (inprogress, trénovanie electra na colab). - https://git.kemt.fei.tuke.sk/dano/bert-train +## Rozpracované úlohy + +- Trénovanie na TPU Google Colab Electra Base. (Olekšák) +- trénovanie XLNet Base +- Tokenizer SentencePiece pre XLNet + ## Hotové úlohy @@ -38,15 +44,11 @@ author: Daniel Hládek - Natrénovaný HF Roberta Small - Deduplikovaný webový korpus oscar plus skweb2017 - tokenizer BPE Roberta +- Trénovanie Roberta Base ## Budúce úlohy -- Trénovanie na TPU Google Colab -- Natrénovať Electra Base. - Pripraviť aj iné množiny na vyhodnotnie: kategorizácia textu na SCNC1. -- Trénovanie Roberta Base -- trénovanie XLNet Base -- Tokenizer SentencePiece pre XLNet - Pridať Wikipedia do trénovania. ## Poznámky