zpwiki/README.md at ef3c2147382fdeb0c4239c25f7ce4d15a21e88b8

2021-10-12 13:52:58 +02:00

2.1 KiB

Raw Blame History

title	published	author
Jazykový model slovenského jazyka	true	Daniel Hládek

! Cieľ: ! ! - Natrénovať a slovenský jazykový model typu BERT z korpusu webových textov ! - Vyhodnotiť jazykový model dotrénovaním na úlohách: ! - SK-QUAD 2.0 ! - POS z Slovak Treebank ! - kategórie zo Slovak Categorized news Corpus

Súvisiace projekty

SlovakBERT od Kinit, a článok
SK Quad - Slovak Question Answering Dataset
bakalárska práca Ondrej Megela

Hotové úlohy

Dotrénovaný model multilingual BERT base na SK QUAD, funguje demo skript. Nefunguje exaktné vyhodnotenie.
Natrénovaný model Electra-small, slovník SNK Morpho 1M slov., 30 tisíc BPE tokenov.

Rozpracované úlohy

Natrénovať Electra Base.
Vylepšiť parametre trénovania.
Dokončiť SK SQUAD databázu pre exaktné vyhodnotenie.
Dotrénovať model na SK QUAD a exaktne vyhodnotiť pomocou oficiálneho squad skriptu.
Pripraviť aj iné množiny na vyhodnotnie:
- kategorizácia textu na SCNC1.
- POS na Slovak Treebank.
- pripraviť iné množiny.

Poznámky

Nie každý model je vhodný na QA. Je potrebné aby mal veľký rozmer vstupného vektora aby aj dlhší odsek mohol byť na vstupe. Z toho dôvodu "small model" asi nestačí na QA.
Väčší vstupný rozmer je obmedzený veľkosťou RAM pri trénovaní. Pri electre bolo max. 256 tokenov na odsek.
Electra vie využiť iba jednu Titan kartu, druhú zbytočne blokuje.
Trénovanie base electra trvá cca 40 dní na jednej karte.
Trénovanie electra small trvá asi 3 dni, ale model už ďalej nekonverguje po jednom dni.
Dotrénovanie trvá iba niekoľko hodín.

Budúci výskum

Zistiť aký je optimálny počet tokenov?
Zistiť aký je optimálný slovník?
Pripraviť webové demo na slovenské QA.
Integrovať QA s dialógovým systémom.
Integrovať QA s vyhľadávačom.
Zostaviť multilinguálny BERT model.
Natrénovať BART model.
Natrénovať model založený na znakoch.

2.1 KiB Raw Blame History