diff --git a/pages/topics/bert/README.md b/pages/topics/bert/README.md index 4456180c..29e73c9e 100644 --- a/pages/topics/bert/README.md +++ b/pages/topics/bert/README.md @@ -18,19 +18,20 @@ author: Daniel Hládek ## Hotové úlohy +- Vyhodnotenie na SK SQUAD, UDP POS tagging +- Trénovacie skripty - Dotrénovaný model multilingual BERT base na SK QUAD, funguje demo skript. Nefunguje exaktné vyhodnotenie. - Natrénovaný model Electra-small 128, 256 batch size, learning 2e-4, skweb2017dedup, Slovník 32K wordpiece, 0.83 POS, 0.51 Squad -## Rozpracované úlohy +## Budúce úlohy +- Konvertovať do Transformers pomocou ransformers/src/transformers/models/electra/convert_electra_original_tf_checkpoint_to_pytorch.py +- Pridať OSCAR a Wikipedia do trénovania. +- Trénovanie na TPU Google Colab - Natrénovať Electra Base. -- Vylepšiť parametre trénovania. - Dokončiť SK SQUAD databázu pre exaktné vyhodnotenie. -- Dotrénovať model na SK QUAD a exaktne vyhodnotiť pomocou oficiálneho squad skriptu. -- Pripraviť aj iné množiny na vyhodnotnie: - - kategorizácia textu na SCNC1. - - POS na Slovak Treebank. - - pripraviť iné množiny. +- Pripraviť aj iné množiny na vyhodnotnie: kategorizácia textu na SCNC1. + ## Poznámky @@ -54,7 +55,6 @@ author: Daniel Hládek ## Budúci výskum - Zistiť aký je optimálny počet tokenov? V Slovak BERT použili 50k. -- Zistiť aký je optimálný slovník? - Pripraviť webové demo na slovenské QA. - Integrovať QA s dialógovým systémom. - Integrovať QA s vyhľadávačom.