From 570fdf64942e8b8ab827dd0fcf102b5cf8f5b5df Mon Sep 17 00:00:00 2001
From: dano <dhladek@gmail.com>
Date: Fri, 19 Nov 2021 11:34:01 +0000
Subject: [PATCH] Update 'pages/topics/bert/README.md'

---
 pages/topics/bert/README.md | 9 ++++-----
 1 file changed, 4 insertions(+), 5 deletions(-)

diff --git a/pages/topics/bert/README.md b/pages/topics/bert/README.md
index ca5062da63..cf6b10396d 100644
--- a/pages/topics/bert/README.md
+++ b/pages/topics/bert/README.md
@@ -13,7 +13,7 @@ author: Daniel Hládek
 - [SlovakBERT](https://github.com/gerulata/slovakbert) od Kinit, a [článok](https://arxiv.org/abs/2109.15254)
 - [SK Quad](/topics/question) - Slovak Question Answering Dataset 
 - bakalárska práca [Ondrej Megela](/students/2018/ondrej_megela)
-- diplomová práza Jozef Olekšák (inprogress, trénovanie electra na colab).
+- diplomová práza Jozef Olekšák (in progress, trénovanie electra na colab).
 - https://git.kemt.fei.tuke.sk/dano/bert-train
 
 ## Rozpracované úlohy
@@ -21,6 +21,7 @@ author: Daniel Hládek
 - Trénovanie na TPU Google Colab  Electra Base. (Olekšák)
 - trénovanie XLNet Base
 - Tokenizer SentencePiece pre XLNet
+- Trénovanie Roberta Base (zatiaľ najlepšie 0.65)
 
 
 ## Hotové úlohy
@@ -34,8 +35,8 @@ author: Daniel Hládek
 
 ### Hugging Face Models Finetuning
 
-- Dotrénovaný model multilingual BERT base  na SK QUAD, funguje demo skript. 
-- Dotrénovany Slovak Bert na SK QUAD
+- Dotrénovaný model multilingual BERT base  na SK QUAD, funguje demo skript. (0.72)
+- Dotrénovany Slovak Bert na SK QUAD (0.75)
 - Dotrénovaný model multilingual BERT na SQUAD anglickej, overné na slovenskej SK QUAD
 - SK Quad Datasets Interface
 
@@ -44,7 +45,6 @@ author: Daniel Hládek
 - Natrénovaný HF Roberta Small
 - Deduplikovaný webový korpus oscar plus skweb2017
 - tokenizer BPE Roberta
-- Trénovanie Roberta Base
 
 ## Budúce  úlohy
 
@@ -69,7 +69,6 @@ author: Daniel Hládek
 - ELECTRA ingoruje pokyn na ponechanie diakritiky!!!! Ponechanie diakritiky funguje iba pre "prepare", inak sa diakritika stále odstraňuje. Ne ponechanie diakritiky sú potrebné úpravy v zdrojových kódoch. 
 - TODO: Vytvorenie slovníka ako pri BERT https://github.com/google-research/electra/issues/58 
 
-
 ## Budúci výskum
 
 - Zistiť aký je optimálny počet tokenov? V Slovak BERT použili 50k.