2.5 KiB
Prieskum rôznych jazykových verzií datasetu SQuAD a spôsobov ich vytvorenia
Spanish SQuAD
Preložili SQuAD verzie 1.1 a vyvinuli metódu TAR, Translate Align Retrieve.
Translate Aling Retrieve Method
TAR je metóda, ktorá preloží kontext, otázky, odpovede datasetu SQuAD do iného jazyka. Skladá sa z troch častí:
- Natrénovaný NMT model zo zdrojového jazyka do cielového jazyka
- Model na zarovnávanie text slov
- Postup na preloženie kontextu, otázky, odpovedí do cieľového jazyka použitím predošlých komponentov
Pre zarovnanie kontextu a jeho prekladu použili model eflomal, ktorého implementácia je dostupna na gitlabe
Swedish SQuAD
Na preloženie SQuADu použili Google Translation API, kde okolo odpovede v kontexte pridali špeciálne znaky "[0]" aby vedeli nájst odpoveď v kontexte ktorého slová môžu byť posunuté.
Avšak tento postup nie je perfektný, niektoré kontext-odpoveď páry neboli preložené perfektne. Výsledný preložený dataset je z toho dôvodu iba 90% veľkosti originálneho SQuADu.
Datasetom bol dotrénovaný model Swedish BERT, ktorého výsledky porovnávali s výsledkami originálneho Swedish BERT modelu a Multilingual XLM-RoBERTa. (výsledky)
Pre realistickejšie porovnanie modelov bol interne vytvorený menší QA dataset s 91 pármi otázok-odpovedí kde výsledky dotrénovaného modelu sú ovela lepšie. (výsledky)
French SQuAD
Italian SQuAD
Článok nie je volne dostupný