Bakalarska_praca/remove_slovak_letters.py

25 lines
1.2 KiB
Python
Raw Permalink Normal View History

2024-11-08 16:52:56 +00:00
# Словарь для замены словацких символов на обычные
2024-10-23 11:36:14 +00:00
replacement_dict = {
2024-11-08 16:52:56 +00:00
"á": "a", "ä": "a", "č": "c", "ď": "d", "é": "e", "í": "i", "ĺ": "l", "ľ": "l",
"ň": "n", "ó": "o", "ô": "o", "ŕ": "r", "š": "s", "ť": "t", "ú": "u", "ý": "y",
"ž": "z", "Á": "A", "Ä": "A", "Č": "C", "Ď": "D", "É": "E", "Í": "I", "Ĺ": "L",
"Ľ": "L", "Ň": "N", "Ó": "O", "Ô": "O", "Ŕ": "R", "Š": "S", "Ť": "T", "Ú": "U",
"Ý": "Y", "Ž": "Z", "ď": "d", "ľ": "l", "ŕ": "r", "ľ": "l", "ž": "z"
}
2024-10-23 11:36:14 +00:00
# Открываем файл и читаем его содержимое
2024-11-08 16:52:56 +00:00
with open('cleaned_book.txt', 'r', encoding='utf-8', errors='replace') as file:
2024-10-23 11:36:14 +00:00
text_content = file.read()
# Заменяем словацкие символы на обычные буквы
for slovak_char, english_char in replacement_dict.items():
text_content = text_content.replace(slovak_char, english_char)
# Записываем изменённый текст в новый файл
2024-11-08 16:52:56 +00:00
with open('book_no_slovak_output.txt', 'w', encoding='utf-8') as output_file:
2024-10-23 11:36:14 +00:00
output_file.write(text_content)
print("Текст успешно нормализован!")