This commit is contained in:
Daniel Hládek 2021-11-16 14:44:39 +01:00
parent 00f6179838
commit 68293b2f36

View File

@ -16,6 +16,12 @@ author: Daniel Hládek
- diplomová práza Jozef Olekšák (inprogress, trénovanie electra na colab).
- https://git.kemt.fei.tuke.sk/dano/bert-train
## Rozpracované úlohy
- Trénovanie na TPU Google Colab Electra Base. (Olekšák)
- trénovanie XLNet Base
- Tokenizer SentencePiece pre XLNet
## Hotové úlohy
@ -38,15 +44,11 @@ author: Daniel Hládek
- Natrénovaný HF Roberta Small
- Deduplikovaný webový korpus oscar plus skweb2017
- tokenizer BPE Roberta
- Trénovanie Roberta Base
## Budúce úlohy
- Trénovanie na TPU Google Colab
- Natrénovať Electra Base.
- Pripraviť aj iné množiny na vyhodnotnie: kategorizácia textu na SCNC1.
- Trénovanie Roberta Base
- trénovanie XLNet Base
- Tokenizer SentencePiece pre XLNet
- Pridať Wikipedia do trénovania.
## Poznámky