dp2022/notes/Prieskum jazykovych verzii.md

# Prieskum rôznych jazykových verzií datasetu SQuAD a spôsobov ich vytvorenia

## Spanish SQuAD
[Hugging face](https://huggingface.co/datasets/squad_es)

[White paper](https://www.researchgate.net/publication/337904607_Automatic_Spanish_Translation_of_the_SQuAD_Dataset_for_Multilingual_Question_Answering/fulltext/5df1bb65299bf10bc3545e97/Automatic-Spanish-Translation-of-the-SQuAD-Dataset-for-Multilingual-Question-Answering.pdf)

Preložili SQuAD verzie 1.1 a vyvinuli metódu TAR, Translate Align Retrieve.

### Translate Aling Retrieve Method
[GitHub repo](https://github.com/ccasimiro88/TranslateAlignRetrieve)

TAR je metóda, ktorá preloží kontext, otázky, odpovede datasetu SQuAD do iného jazyka. Skladá sa z troch častí:

1. Natrénovaný NMT model zo zdrojového jazyka do cielového jazyka
2. Model na zarovnávanie text slov
3. Postup na preloženie kontextu, otázky, odpovedí do cieľového jazyka použitím predošlých komponentov

Pre zarovnanie kontextu a jeho prekladu použili model [eflomal](https://ufal.mff.cuni.cz/pbml/106/art-ostling-tiedemann.pdf), ktorého implementácia je dostupna na [gitlabe](https://github.com/robertostling/efmaral)

## Swedish SQuAD
[Hugging face](https://huggingface.co/datasets/susumu2357/squad_v2_sv)

[GitHub repo](https://github.com/susumu2357/SQuAD_v2_sv)

Na preloženie SQuADu použili Google Translation API, kde okolo odpovede v kontexte pridali špeciálne znaky "[0]" aby vedeli nájst odpoveď v kontexte ktorého slová môžu byť posunuté.

Avšak tento postup nie je perfektný, niektoré kontext-odpoveď páry neboli preložené perfektne. Výsledný preložený dataset je z toho dôvodu iba 90% veľkosti originálneho SQuADu.

Datasetom bol dotrénovaný model [Swedish BERT](https://github.com/Kungbib/swedish-bert-models), ktorého výsledky porovnávali s výsledkami originálneho Swedish BERT modelu a Multilingual XLM-RoBERTa. ([výsledky](https://github.com/susumu2357/SQuAD_v2_sv#evaluation-on-squad_v2_sv-dev))

Pre realistickejšie porovnanie modelov bol interne vytvorený menší QA dataset s 91 pármi otázok-odpovedí kde výsledky dotrénovaného modelu sú ovela lepšie. ([výsledky](https://github.com/susumu2357/SQuAD_v2_sv#evaluation-on-nobel-prize-dataset))

## French SQuAD
[Hugging face](https://huggingface.co/datasets/qwant/squad_fr)

[White paper](https://hal.archives-ouvertes.fr/hal-03336060/file/RANLP_2021_transformers_usability.pdf)

## Italian SQuAD
[Hugging face](https://huggingface.co/datasets/squad_it)

Článok nie je volne dostupný