Update 'pages/topics/bert/README.md'

This commit is contained in:
dano 2021-10-21 11:20:15 +00:00
parent c37e1187b7
commit a34220248b

View File

@ -18,19 +18,20 @@ author: Daniel Hládek
## Hotové úlohy ## Hotové úlohy
- Vyhodnotenie na SK SQUAD, UDP POS tagging
- Trénovacie skripty
- Dotrénovaný model multilingual BERT base na SK QUAD, funguje demo skript. Nefunguje exaktné vyhodnotenie. - Dotrénovaný model multilingual BERT base na SK QUAD, funguje demo skript. Nefunguje exaktné vyhodnotenie.
- Natrénovaný model Electra-small 128, 256 batch size, learning 2e-4, skweb2017dedup, Slovník 32K wordpiece, 0.83 POS, 0.51 Squad - Natrénovaný model Electra-small 128, 256 batch size, learning 2e-4, skweb2017dedup, Slovník 32K wordpiece, 0.83 POS, 0.51 Squad
## Rozpracované úlohy ## Budúce úlohy
- Konvertovať do Transformers pomocou ransformers/src/transformers/models/electra/convert_electra_original_tf_checkpoint_to_pytorch.py
- Pridať OSCAR a Wikipedia do trénovania.
- Trénovanie na TPU Google Colab
- Natrénovať Electra Base. - Natrénovať Electra Base.
- Vylepšiť parametre trénovania.
- Dokončiť SK SQUAD databázu pre exaktné vyhodnotenie. - Dokončiť SK SQUAD databázu pre exaktné vyhodnotenie.
- Dotrénovať model na SK QUAD a exaktne vyhodnotiť pomocou oficiálneho squad skriptu. - Pripraviť aj iné množiny na vyhodnotnie: kategorizácia textu na SCNC1.
- Pripraviť aj iné množiny na vyhodnotnie:
- kategorizácia textu na SCNC1.
- POS na Slovak Treebank.
- pripraviť iné množiny.
## Poznámky ## Poznámky
@ -54,7 +55,6 @@ author: Daniel Hládek
## Budúci výskum ## Budúci výskum
- Zistiť aký je optimálny počet tokenov? V Slovak BERT použili 50k. - Zistiť aký je optimálny počet tokenov? V Slovak BERT použili 50k.
- Zistiť aký je optimálný slovník?
- Pripraviť webové demo na slovenské QA. - Pripraviť webové demo na slovenské QA.
- Integrovať QA s dialógovým systémom. - Integrovať QA s dialógovým systémom.
- Integrovať QA s vyhľadávačom. - Integrovať QA s vyhľadávačom.