Update 'pages/topics/bert/README.md'

This commit is contained in:
dano 2021-10-21 11:20:15 +00:00
parent c37e1187b7
commit a34220248b

View File

@ -18,19 +18,20 @@ author: Daniel Hládek
## Hotové úlohy
- Vyhodnotenie na SK SQUAD, UDP POS tagging
- Trénovacie skripty
- Dotrénovaný model multilingual BERT base na SK QUAD, funguje demo skript. Nefunguje exaktné vyhodnotenie.
- Natrénovaný model Electra-small 128, 256 batch size, learning 2e-4, skweb2017dedup, Slovník 32K wordpiece, 0.83 POS, 0.51 Squad
## Rozpracované úlohy
## Budúce úlohy
- Konvertovať do Transformers pomocou ransformers/src/transformers/models/electra/convert_electra_original_tf_checkpoint_to_pytorch.py
- Pridať OSCAR a Wikipedia do trénovania.
- Trénovanie na TPU Google Colab
- Natrénovať Electra Base.
- Vylepšiť parametre trénovania.
- Dokončiť SK SQUAD databázu pre exaktné vyhodnotenie.
- Dotrénovať model na SK QUAD a exaktne vyhodnotiť pomocou oficiálneho squad skriptu.
- Pripraviť aj iné množiny na vyhodnotnie:
- kategorizácia textu na SCNC1.
- POS na Slovak Treebank.
- pripraviť iné množiny.
- Pripraviť aj iné množiny na vyhodnotnie: kategorizácia textu na SCNC1.
## Poznámky
@ -54,7 +55,6 @@ author: Daniel Hládek
## Budúci výskum
- Zistiť aký je optimálny počet tokenov? V Slovak BERT použili 50k.
- Zistiť aký je optimálný slovník?
- Pripraviť webové demo na slovenské QA.
- Integrovať QA s dialógovým systémom.
- Integrovať QA s vyhľadávačom.