diff --git a/pages/topics/bert/README.md b/pages/topics/bert/README.md new file mode 100644 index 000000000..7666ccea3 --- /dev/null +++ b/pages/topics/bert/README.md @@ -0,0 +1,55 @@ +--- +title: Jazykový model slovenského jazyka +published: true +author: Daniel Hládek +--- + +! Cieľ: +! +! - Natrénovať a slovenský jazykový model typu BERT z korpusu webových textov +! - Vyhodnotiť jazykový model dotrénovaním na úlohách: +! - SK-QUAD 2.0 +! - POS z Slovak Treebank +! - kategórie zo Slovak Categorized news Corpus + +## Súvisiace projekty + +- [SlovakBERT](https://github.com/gerulata/slovakbert) od Kinit, a [článok](https://arxiv.org/abs/2109.15254) +- [SK Quad](/topics/question) - Slovak Question Answering Dataset +- bakalárska práca [Ondrej Megela](/students/) + +## Hotové úlohy + +- Dotrénovaný model multilingual BERT base na SK QUAD, funguje demo skript. Nefunguje exaktné vyhodnotenie. +- Natrénovaný model Electra-small, slovník SNK Morpho 1M slov., 30 tisíc BPE tokenov. + +## Rozpracované úlohy + +- Natrénovať Electra Base. +- Vylepšiť parametre trénovania. +- Dokončiť SK SQUAD databázu pre exaktné vyhodnotenie. +- Dotrénovať model na SK QUAD a exaktne vyhodnotiť pomocou oficiálneho squad skriptu. +- Pripraviť aj iné množiny na vyhodnotnie: + - kategorizácia textu na SCNC1. + - POS na Slovak Treebank. + - pripraviť iné množiny. + +## Poznámky + +- Nie každý model je vhodný na QA. Je potrebné aby mal veľký rozmer vstupného vektora aby aj dlhší odsek mohol byť na vstupe. Z toho dôvodu "small model" asi nestačí na QA. +- Väčší vstupný rozmer je obmedzený veľkosťou RAM pri trénovaní. Pri electre bolo max. 256 tokenov na odsek. +- Electra vie využiť iba jednu Titan kartu, druhú zbytočne blokuje. +- Trénovanie base electra trvá cca 40 dní na jednej karte. +- Trénovanie electra small trvá asi 3 dni, ale model už ďalej nekonverguje po jednom dni. +- Dotrénovanie trvá iba niekoľko hodín. + +## Budúci výskum + +- Zistiť aký je optimálny počet tokenov? +- Zistiť aký je optimálný slovník? +- Pripraviť webové demo na slovenské QA. +- Integrovať QA s dialógovým systémom. +- Integrovať QA s vyhľadávačom. +- Zostaviť multilinguálny BERT model. +- Natrénovať BART model. +- Natrénovať model založený na znakoch.