data | ||
notes | ||
.env | ||
.gitignore | ||
README.md | ||
requirements.txt | ||
squad_transform.py | ||
squad_utils.py | ||
translate_utils.py |
Tvorba korpusu otázok a odpovedí vo viacerých jazykoch pomocou strojového prekladu
- Vypracujte prehľad jazykových mutácii overovacej množiny SQUAD a opíšte spôsob ich tvorby.
- Vypracujte prehľad aktuálnych systémov pre generovanie odpovede na otázku v prirodzenom jazyku.
- Navrhnite a vykonajte postup pre vytvorenie korpusu otázok a odpovedí v inom jazyku pomocou strojového prekladu z anglického jazyka,
- Natrénujte systém pre generovanie odpovedí na viacerých jazykových verziách SQUAD a porovnajte ich presnosť.
Prerequisites
- Download and unpack
google-cloud-sdk
from here. - Create account, project, service account and keys in google cloud following this documentation.
- Create a file named
google_api_key.json
in root directory and copy the contents of the downloaded service account keys file inside. - Create a new conda environment and install required packages with
pip install -r requirements.txt
Functionality
squad_transform.py
- Takes
squad-v2-dev-small.json
and adds special characters around every answer in context and calculates new indexes of the answer positions. - Translates every context and every question and puts the translated sentences in new fields.
- Saves the intermediate file as
squad-v2-dev-small-transformed.py
- Removes the special characters from contexts and recalculates the indexes of the answer positions.
- Saves the final file as
squad-v2-dev-small-translated.py
squad_utils.py
Utility functions for working with squad files
translate_utils.py
Utility fuctions for working with Google's Translate API