Update 'pages/topics/bert/README.md'

This commit is contained in:
dano 2021-11-19 11:34:01 +00:00
parent 3f75d311e8
commit 570fdf6494

View File

@ -13,7 +13,7 @@ author: Daniel Hládek
- [SlovakBERT](https://github.com/gerulata/slovakbert) od Kinit, a [článok](https://arxiv.org/abs/2109.15254)
- [SK Quad](/topics/question) - Slovak Question Answering Dataset
- bakalárska práca [Ondrej Megela](/students/2018/ondrej_megela)
- diplomová práza Jozef Olekšák (inprogress, trénovanie electra na colab).
- diplomová práza Jozef Olekšák (in progress, trénovanie electra na colab).
- https://git.kemt.fei.tuke.sk/dano/bert-train
## Rozpracované úlohy
@ -21,6 +21,7 @@ author: Daniel Hládek
- Trénovanie na TPU Google Colab Electra Base. (Olekšák)
- trénovanie XLNet Base
- Tokenizer SentencePiece pre XLNet
- Trénovanie Roberta Base (zatiaľ najlepšie 0.65)
## Hotové úlohy
@ -34,8 +35,8 @@ author: Daniel Hládek
### Hugging Face Models Finetuning
- Dotrénovaný model multilingual BERT base na SK QUAD, funguje demo skript.
- Dotrénovany Slovak Bert na SK QUAD
- Dotrénovaný model multilingual BERT base na SK QUAD, funguje demo skript. (0.72)
- Dotrénovany Slovak Bert na SK QUAD (0.75)
- Dotrénovaný model multilingual BERT na SQUAD anglickej, overné na slovenskej SK QUAD
- SK Quad Datasets Interface
@ -44,7 +45,6 @@ author: Daniel Hládek
- Natrénovaný HF Roberta Small
- Deduplikovaný webový korpus oscar plus skweb2017
- tokenizer BPE Roberta
- Trénovanie Roberta Base
## Budúce úlohy
@ -69,7 +69,6 @@ author: Daniel Hládek
- ELECTRA ingoruje pokyn na ponechanie diakritiky!!!! Ponechanie diakritiky funguje iba pre "prepare", inak sa diakritika stále odstraňuje. Ne ponechanie diakritiky sú potrebné úpravy v zdrojových kódoch.
- TODO: Vytvorenie slovníka ako pri BERT https://github.com/google-research/electra/issues/58
## Budúci výskum
- Zistiť aký je optimálny počet tokenov? V Slovak BERT použili 50k.