forked from KEMT/zpwiki
Update 'pages/topics/bert/README.md'
This commit is contained in:
parent
3f75d311e8
commit
570fdf6494
@ -21,6 +21,7 @@ author: Daniel Hládek
|
|||||||
- Trénovanie na TPU Google Colab Electra Base. (Olekšák)
|
- Trénovanie na TPU Google Colab Electra Base. (Olekšák)
|
||||||
- trénovanie XLNet Base
|
- trénovanie XLNet Base
|
||||||
- Tokenizer SentencePiece pre XLNet
|
- Tokenizer SentencePiece pre XLNet
|
||||||
|
- Trénovanie Roberta Base (zatiaľ najlepšie 0.65)
|
||||||
|
|
||||||
|
|
||||||
## Hotové úlohy
|
## Hotové úlohy
|
||||||
@ -34,8 +35,8 @@ author: Daniel Hládek
|
|||||||
|
|
||||||
### Hugging Face Models Finetuning
|
### Hugging Face Models Finetuning
|
||||||
|
|
||||||
- Dotrénovaný model multilingual BERT base na SK QUAD, funguje demo skript.
|
- Dotrénovaný model multilingual BERT base na SK QUAD, funguje demo skript. (0.72)
|
||||||
- Dotrénovany Slovak Bert na SK QUAD
|
- Dotrénovany Slovak Bert na SK QUAD (0.75)
|
||||||
- Dotrénovaný model multilingual BERT na SQUAD anglickej, overné na slovenskej SK QUAD
|
- Dotrénovaný model multilingual BERT na SQUAD anglickej, overné na slovenskej SK QUAD
|
||||||
- SK Quad Datasets Interface
|
- SK Quad Datasets Interface
|
||||||
|
|
||||||
@ -44,7 +45,6 @@ author: Daniel Hládek
|
|||||||
- Natrénovaný HF Roberta Small
|
- Natrénovaný HF Roberta Small
|
||||||
- Deduplikovaný webový korpus oscar plus skweb2017
|
- Deduplikovaný webový korpus oscar plus skweb2017
|
||||||
- tokenizer BPE Roberta
|
- tokenizer BPE Roberta
|
||||||
- Trénovanie Roberta Base
|
|
||||||
|
|
||||||
## Budúce úlohy
|
## Budúce úlohy
|
||||||
|
|
||||||
@ -69,7 +69,6 @@ author: Daniel Hládek
|
|||||||
- ELECTRA ingoruje pokyn na ponechanie diakritiky!!!! Ponechanie diakritiky funguje iba pre "prepare", inak sa diakritika stále odstraňuje. Ne ponechanie diakritiky sú potrebné úpravy v zdrojových kódoch.
|
- ELECTRA ingoruje pokyn na ponechanie diakritiky!!!! Ponechanie diakritiky funguje iba pre "prepare", inak sa diakritika stále odstraňuje. Ne ponechanie diakritiky sú potrebné úpravy v zdrojových kódoch.
|
||||||
- TODO: Vytvorenie slovníka ako pri BERT https://github.com/google-research/electra/issues/58
|
- TODO: Vytvorenie slovníka ako pri BERT https://github.com/google-research/electra/issues/58
|
||||||
|
|
||||||
|
|
||||||
## Budúci výskum
|
## Budúci výskum
|
||||||
|
|
||||||
- Zistiť aký je optimálny počet tokenov? V Slovak BERT použili 50k.
|
- Zistiť aký je optimálny počet tokenov? V Slovak BERT použili 50k.
|
||||||
|
Loading…
Reference in New Issue
Block a user