forked from KEMT/zpwiki
Update 'pages/topics/bert/README.md'
This commit is contained in:
parent
c37e1187b7
commit
a34220248b
@ -18,19 +18,20 @@ author: Daniel Hládek
|
||||
|
||||
## Hotové úlohy
|
||||
|
||||
- Vyhodnotenie na SK SQUAD, UDP POS tagging
|
||||
- Trénovacie skripty
|
||||
- Dotrénovaný model multilingual BERT base na SK QUAD, funguje demo skript. Nefunguje exaktné vyhodnotenie.
|
||||
- Natrénovaný model Electra-small 128, 256 batch size, learning 2e-4, skweb2017dedup, Slovník 32K wordpiece, 0.83 POS, 0.51 Squad
|
||||
|
||||
## Rozpracované úlohy
|
||||
## Budúce úlohy
|
||||
|
||||
- Konvertovať do Transformers pomocou ransformers/src/transformers/models/electra/convert_electra_original_tf_checkpoint_to_pytorch.py
|
||||
- Pridať OSCAR a Wikipedia do trénovania.
|
||||
- Trénovanie na TPU Google Colab
|
||||
- Natrénovať Electra Base.
|
||||
- Vylepšiť parametre trénovania.
|
||||
- Dokončiť SK SQUAD databázu pre exaktné vyhodnotenie.
|
||||
- Dotrénovať model na SK QUAD a exaktne vyhodnotiť pomocou oficiálneho squad skriptu.
|
||||
- Pripraviť aj iné množiny na vyhodnotnie:
|
||||
- kategorizácia textu na SCNC1.
|
||||
- POS na Slovak Treebank.
|
||||
- pripraviť iné množiny.
|
||||
- Pripraviť aj iné množiny na vyhodnotnie: kategorizácia textu na SCNC1.
|
||||
|
||||
|
||||
## Poznámky
|
||||
|
||||
@ -54,7 +55,6 @@ author: Daniel Hládek
|
||||
## Budúci výskum
|
||||
|
||||
- Zistiť aký je optimálny počet tokenov? V Slovak BERT použili 50k.
|
||||
- Zistiť aký je optimálný slovník?
|
||||
- Pripraviť webové demo na slovenské QA.
|
||||
- Integrovať QA s dialógovým systémom.
|
||||
- Integrovať QA s vyhľadávačom.
|
||||
|
Loading…
Reference in New Issue
Block a user