This commit is contained in:
Andrii Pervashov 2024-11-08 17:52:56 +01:00
parent 24312af4d9
commit 6137eeef63
2 changed files with 12725 additions and 10 deletions

12715
book_no_slovak_output.txt Normal file

File diff suppressed because it is too large Load Diff

View File

@ -1,15 +1,15 @@
# Словарь для замены словацких символов на обычные буквы # Словарь для замены словацких символов на обычные
replacement_dict = { replacement_dict = {
'á': 'a', 'ä': 'a', 'č': 'c', 'ď': 'd', 'é': 'e', 'í': 'i', "á": "a", "ä": "a", "č": "c", "ď": "d", "é": "e", "í": "i", "ĺ": "l", "ľ": "l",
'ĺ': 'l', 'ľ': 'l', 'ň': 'n', 'ó': 'o', 'ô': 'o', 'ŕ': 'r', "ň": "n", "ó": "o", "ô": "o", "ŕ": "r", "š": "s", "ť": "t", "ú": "u", "ý": "y",
'šť': 'st', 'ú': 'u', 'ý': 'y', 'ž': 'z', "ž": "z", "Á": "A", "Ä": "A", "Č": "C", "Ď": "D", "É": "E", "Í": "I", "Ĺ": "L",
'Á': 'A', 'Ä': 'A', 'Č': 'C', 'Ď': 'D', 'É': 'E', 'Í': 'I', "Ľ": "L", "Ň": "N", "Ó": "O", "Ô": "O", "Ŕ": "R", "Š": "S", "Ť": "T", "Ú": "U",
'Ĺ': 'L', 'Ľ': 'L', 'Ň': 'N', 'Ó': 'O', 'Ô': 'O', 'Ŕ': 'R', "Ý": "Y", "Ž": "Z", "ď": "d", "ľ": "l", "ŕ": "r", "ľ": "l", "ž": "z"
'Š': 'S', 'Ú': 'U', 'Ý': 'Y', 'Ž': 'Z'
} }
# Открываем файл и читаем его содержимое # Открываем файл и читаем его содержимое
with open('skoly_no_caps.txt', 'r', encoding='utf-8', errors='replace') as file: with open('cleaned_book.txt', 'r', encoding='utf-8', errors='replace') as file:
text_content = file.read() text_content = file.read()
# Заменяем словацкие символы на обычные буквы # Заменяем словацкие символы на обычные буквы
@ -17,7 +17,7 @@ for slovak_char, english_char in replacement_dict.items():
text_content = text_content.replace(slovak_char, english_char) text_content = text_content.replace(slovak_char, english_char)
# Записываем изменённый текст в новый файл # Записываем изменённый текст в новый файл
with open('skoly_no_slovak_output.txt', 'w', encoding='utf-8') as output_file: with open('book_no_slovak_output.txt', 'w', encoding='utf-8') as output_file:
output_file.write(text_content) output_file.write(text_content)
print("Текст успешно нормализован!") print("Текст успешно нормализован!")