2024-11-08 16:52:56 +00:00
|
|
|
|
# Словарь для замены словацких символов на обычные
|
|
|
|
|
|
2024-10-23 11:36:14 +00:00
|
|
|
|
replacement_dict = {
|
2024-11-08 16:52:56 +00:00
|
|
|
|
"á": "a", "ä": "a", "č": "c", "ď": "d", "é": "e", "í": "i", "ĺ": "l", "ľ": "l",
|
|
|
|
|
"ň": "n", "ó": "o", "ô": "o", "ŕ": "r", "š": "s", "ť": "t", "ú": "u", "ý": "y",
|
|
|
|
|
"ž": "z", "Á": "A", "Ä": "A", "Č": "C", "Ď": "D", "É": "E", "Í": "I", "Ĺ": "L",
|
|
|
|
|
"Ľ": "L", "Ň": "N", "Ó": "O", "Ô": "O", "Ŕ": "R", "Š": "S", "Ť": "T", "Ú": "U",
|
|
|
|
|
"Ý": "Y", "Ž": "Z", "ď": "d", "ľ": "l", "ŕ": "r", "ľ": "l", "ž": "z"
|
|
|
|
|
}
|
2024-10-23 11:36:14 +00:00
|
|
|
|
|
|
|
|
|
# Открываем файл и читаем его содержимое
|
2024-11-08 16:52:56 +00:00
|
|
|
|
with open('cleaned_book.txt', 'r', encoding='utf-8', errors='replace') as file:
|
2024-10-23 11:36:14 +00:00
|
|
|
|
text_content = file.read()
|
|
|
|
|
|
|
|
|
|
# Заменяем словацкие символы на обычные буквы
|
|
|
|
|
for slovak_char, english_char in replacement_dict.items():
|
|
|
|
|
text_content = text_content.replace(slovak_char, english_char)
|
|
|
|
|
|
|
|
|
|
# Записываем изменённый текст в новый файл
|
2024-11-08 16:52:56 +00:00
|
|
|
|
with open('book_no_slovak_output.txt', 'w', encoding='utf-8') as output_file:
|
2024-10-23 11:36:14 +00:00
|
|
|
|
output_file.write(text_content)
|
|
|
|
|
|
|
|
|
|
print("Текст успешно нормализован!")
|
|
|
|
|
|