diff --git a/pages/topics/bert/README.md b/pages/topics/bert/README.md index ca5062da6..cf6b10396 100644 --- a/pages/topics/bert/README.md +++ b/pages/topics/bert/README.md @@ -13,7 +13,7 @@ author: Daniel Hládek - [SlovakBERT](https://github.com/gerulata/slovakbert) od Kinit, a [článok](https://arxiv.org/abs/2109.15254) - [SK Quad](/topics/question) - Slovak Question Answering Dataset - bakalárska práca [Ondrej Megela](/students/2018/ondrej_megela) -- diplomová práza Jozef Olekšák (inprogress, trénovanie electra na colab). +- diplomová práza Jozef Olekšák (in progress, trénovanie electra na colab). - https://git.kemt.fei.tuke.sk/dano/bert-train ## Rozpracované úlohy @@ -21,6 +21,7 @@ author: Daniel Hládek - Trénovanie na TPU Google Colab Electra Base. (Olekšák) - trénovanie XLNet Base - Tokenizer SentencePiece pre XLNet +- Trénovanie Roberta Base (zatiaľ najlepšie 0.65) ## Hotové úlohy @@ -34,8 +35,8 @@ author: Daniel Hládek ### Hugging Face Models Finetuning -- Dotrénovaný model multilingual BERT base na SK QUAD, funguje demo skript. -- Dotrénovany Slovak Bert na SK QUAD +- Dotrénovaný model multilingual BERT base na SK QUAD, funguje demo skript. (0.72) +- Dotrénovany Slovak Bert na SK QUAD (0.75) - Dotrénovaný model multilingual BERT na SQUAD anglickej, overné na slovenskej SK QUAD - SK Quad Datasets Interface @@ -44,7 +45,6 @@ author: Daniel Hládek - Natrénovaný HF Roberta Small - Deduplikovaný webový korpus oscar plus skweb2017 - tokenizer BPE Roberta -- Trénovanie Roberta Base ## Budúce úlohy @@ -69,7 +69,6 @@ author: Daniel Hládek - ELECTRA ingoruje pokyn na ponechanie diakritiky!!!! Ponechanie diakritiky funguje iba pre "prepare", inak sa diakritika stále odstraňuje. Ne ponechanie diakritiky sú potrebné úpravy v zdrojových kódoch. - TODO: Vytvorenie slovníka ako pri BERT https://github.com/google-research/electra/issues/58 - ## Budúci výskum - Zistiť aký je optimálny počet tokenov? V Slovak BERT použili 50k.