- Dotrénovaný model multilingual BERT base na SK QUAD, funguje demo skript. Nefunguje exaktné vyhodnotenie.
- Natrénovaný model Electra-small, slovník SNK Morpho 1M slov., 30 tisíc BPE tokenov.
## Rozpracované úlohy
- Natrénovať Electra Base.
- Vylepšiť parametre trénovania.
- Dokončiť SK SQUAD databázu pre exaktné vyhodnotenie.
- Dotrénovať model na SK QUAD a exaktne vyhodnotiť pomocou oficiálneho squad skriptu.
- Pripraviť aj iné množiny na vyhodnotnie:
- kategorizácia textu na SCNC1.
- POS na Slovak Treebank.
- pripraviť iné množiny.
## Poznámky
- Nie každý model je vhodný na QA. Je potrebné aby mal veľký rozmer vstupného vektora aby aj dlhší odsek mohol byť na vstupe. Z toho dôvodu "small model" asi nestačí na QA.
- Väčší vstupný rozmer je obmedzený veľkosťou RAM pri trénovaní. Pri electre bolo max. 256 tokenov na odsek.
- Electra vie využiť iba jednu Titan kartu, druhú zbytočne blokuje.
- Trénovanie base electra trvá cca 40 dní na jednej karte.