dp2022/notes/Prieskum jazykovych verzii.md
2022-02-20 21:32:55 +01:00

2.5 KiB

Prieskum rôznych jazykových verzií datasetu SQuAD a spôsobov ich vytvorenia

Spanish SQuAD

Hugging face

White paper

Preložili SQuAD verzie 1.1 a vyvinuli metódu TAR, Translate Align Retrieve.

Translate Aling Retrieve Method

GitHub repo

TAR je metóda, ktorá preloží kontext, otázky, odpovede datasetu SQuAD do iného jazyka. Skladá sa z troch častí:

  1. Natrénovaný NMT model zo zdrojového jazyka do cielového jazyka
  2. Model na zarovnávanie text slov
  3. Postup na preloženie kontextu, otázky, odpovedí do cieľového jazyka použitím predošlých komponentov

Pre zarovnanie kontextu a jeho prekladu použili model eflomal, ktorého implementácia je dostupna na gitlabe

Swedish SQuAD

Hugging face

GitHub repo

Na preloženie SQuADu použili Google Translation API, kde okolo odpovede v kontexte pridali špeciálne znaky "[0]" aby vedeli nájst odpoveď v kontexte ktorého slová môžu byť posunuté.

Avšak tento postup nie je perfektný, niektoré kontext-odpoveď páry neboli preložené perfektne. Výsledný preložený dataset je z toho dôvodu iba 90% veľkosti originálneho SQuADu.

Datasetom bol dotrénovaný model Swedish BERT, ktorého výsledky porovnávali s výsledkami originálneho Swedish BERT modelu a Multilingual XLM-RoBERTa. (výsledky)

Pre realistickejšie porovnanie modelov bol interne vytvorený menší QA dataset s 91 pármi otázok-odpovedí kde výsledky dotrénovaného modelu sú ovela lepšie. (výsledky)

French SQuAD

Hugging face

White paper

Italian SQuAD

Hugging face

Článok nie je volne dostupný