46 lines
2.5 KiB
Markdown
46 lines
2.5 KiB
Markdown
|
# Prieskum rôznych jazykových verzií datasetu SQuAD a spôsobov ich vytvorenia
|
||
|
|
||
|
## Spanish SQuAD
|
||
|
[Hugging face](https://huggingface.co/datasets/squad_es)
|
||
|
|
||
|
[White paper](https://www.researchgate.net/publication/337904607_Automatic_Spanish_Translation_of_the_SQuAD_Dataset_for_Multilingual_Question_Answering/fulltext/5df1bb65299bf10bc3545e97/Automatic-Spanish-Translation-of-the-SQuAD-Dataset-for-Multilingual-Question-Answering.pdf)
|
||
|
|
||
|
Preložili SQuAD verzie 1.1 a vyvinuli metódu TAR, Translate Align Retrieve.
|
||
|
|
||
|
### Translate Aling Retrieve Method
|
||
|
[GitHub repo](https://github.com/ccasimiro88/TranslateAlignRetrieve)
|
||
|
|
||
|
TAR je metóda, ktorá preloží kontext, otázky, odpovede datasetu SQuAD do iného jazyka. Skladá sa z troch častí:
|
||
|
|
||
|
1. Natrénovaný NMT model zo zdrojového jazyka do cielového jazyka
|
||
|
2. Model na zarovnávanie text slov
|
||
|
3. Postup na preloženie kontextu, otázky, odpovedí do cieľového jazyka použitím predošlých komponentov
|
||
|
|
||
|
Pre zarovnanie kontextu a jeho prekladu použili model [eflomal](https://ufal.mff.cuni.cz/pbml/106/art-ostling-tiedemann.pdf), ktorého implementácia je dostupna na [gitlabe](https://github.com/robertostling/efmaral)
|
||
|
|
||
|
## Swedish SQuAD
|
||
|
[Hugging face](https://huggingface.co/datasets/susumu2357/squad_v2_sv)
|
||
|
|
||
|
[GitHub repo](https://github.com/susumu2357/SQuAD_v2_sv)
|
||
|
|
||
|
Na preloženie SQuADu použili Google Translation API, kde okolo odpovede v kontexte pridali špeciálne znaky "[0]" aby vedeli nájst odpoveď v kontexte ktorého slová môžu byť posunuté.
|
||
|
|
||
|
Avšak tento postup nie je perfektný, niektoré kontext-odpoveď páry neboli preložené perfektne. Výsledný preložený dataset je z toho dôvodu iba 90% veľkosti originálneho SQuADu.
|
||
|
|
||
|
Datasetom bol dotrénovaný model [Swedish BERT](https://github.com/Kungbib/swedish-bert-models), ktorého výsledky porovnávali s výsledkami originálneho Swedish BERT modelu a Multilingual XLM-RoBERTa. ([výsledky](https://github.com/susumu2357/SQuAD_v2_sv#evaluation-on-squad_v2_sv-dev))
|
||
|
|
||
|
Pre realistickejšie porovnanie modelov bol interne vytvorený menší QA dataset s 91 pármi otázok-odpovedí kde výsledky dotrénovaného modelu sú ovela lepšie. ([výsledky](https://github.com/susumu2357/SQuAD_v2_sv#evaluation-on-nobel-prize-dataset))
|
||
|
|
||
|
## French SQuAD
|
||
|
[Hugging face](https://huggingface.co/datasets/qwant/squad_fr)
|
||
|
|
||
|
[White paper](https://hal.archives-ouvertes.fr/hal-03336060/file/RANLP_2021_transformers_usability.pdf)
|
||
|
|
||
|
## Italian SQuAD
|
||
|
[Hugging face](https://huggingface.co/datasets/squad_it)
|
||
|
|
||
|
Článok nie je volne dostupný
|
||
|
|
||
|
|
||
|
|