Bakalarska_praca/remove_slovak_letters.py

25 lines
1.1 KiB
Python
Raw Normal View History

2024-10-23 11:36:14 +00:00
# Словарь для замены словацких символов на обычные буквы
replacement_dict = {
'á': 'a', 'ä': 'a', 'č': 'c', 'ď': 'd', 'é': 'e', 'í': 'i',
'ĺ': 'l', 'ľ': 'l', 'ň': 'n', 'ó': 'o', 'ô': 'o', 'ŕ': 'r',
'šť': 'st', 'ú': 'u', 'ý': 'y', 'ž': 'z',
'Á': 'A', 'Ä': 'A', 'Č': 'C', 'Ď': 'D', 'É': 'E', 'Í': 'I',
'Ĺ': 'L', 'Ľ': 'L', 'Ň': 'N', 'Ó': 'O', 'Ô': 'O', 'Ŕ': 'R',
'Š': 'S', 'Ú': 'U', 'Ý': 'Y', 'Ž': 'Z'
}
# Открываем файл и читаем его содержимое
2024-10-29 13:08:43 +00:00
with open('skoly_no_caps.txt', 'r', encoding='utf-8', errors='replace') as file:
2024-10-23 11:36:14 +00:00
text_content = file.read()
# Заменяем словацкие символы на обычные буквы
for slovak_char, english_char in replacement_dict.items():
text_content = text_content.replace(slovak_char, english_char)
# Записываем изменённый текст в новый файл
2024-10-29 13:08:43 +00:00
with open('skoly_no_slovak_output.txt', 'w', encoding='utf-8') as output_file:
2024-10-23 11:36:14 +00:00
output_file.write(text_content)
print("Текст успешно нормализован!")