zpwiki/pages/topics/bert/README.md
2021-10-12 13:52:58 +02:00

2.1 KiB

title published author
Jazykový model slovenského jazyka true Daniel Hládek

! Cieľ: ! ! - Natrénovať a slovenský jazykový model typu BERT z korpusu webových textov ! - Vyhodnotiť jazykový model dotrénovaním na úlohách: ! - SK-QUAD 2.0 ! - POS z Slovak Treebank ! - kategórie zo Slovak Categorized news Corpus

Súvisiace projekty

Hotové úlohy

  • Dotrénovaný model multilingual BERT base na SK QUAD, funguje demo skript. Nefunguje exaktné vyhodnotenie.
  • Natrénovaný model Electra-small, slovník SNK Morpho 1M slov., 30 tisíc BPE tokenov.

Rozpracované úlohy

  • Natrénovať Electra Base.
  • Vylepšiť parametre trénovania.
  • Dokončiť SK SQUAD databázu pre exaktné vyhodnotenie.
  • Dotrénovať model na SK QUAD a exaktne vyhodnotiť pomocou oficiálneho squad skriptu.
  • Pripraviť aj iné množiny na vyhodnotnie:
    • kategorizácia textu na SCNC1.
    • POS na Slovak Treebank.
    • pripraviť iné množiny.

Poznámky

  • Nie každý model je vhodný na QA. Je potrebné aby mal veľký rozmer vstupného vektora aby aj dlhší odsek mohol byť na vstupe. Z toho dôvodu "small model" asi nestačí na QA.
  • Väčší vstupný rozmer je obmedzený veľkosťou RAM pri trénovaní. Pri electre bolo max. 256 tokenov na odsek.
  • Electra vie využiť iba jednu Titan kartu, druhú zbytočne blokuje.
  • Trénovanie base electra trvá cca 40 dní na jednej karte.
  • Trénovanie electra small trvá asi 3 dni, ale model už ďalej nekonverguje po jednom dni.
  • Dotrénovanie trvá iba niekoľko hodín.

Budúci výskum

  • Zistiť aký je optimálny počet tokenov?
  • Zistiť aký je optimálný slovník?
  • Pripraviť webové demo na slovenské QA.
  • Integrovať QA s dialógovým systémom.
  • Integrovať QA s vyhľadávačom.
  • Zostaviť multilinguálny BERT model.
  • Natrénovať BART model.
  • Natrénovať model založený na znakoch.