.
This commit is contained in:
parent
24312af4d9
commit
6137eeef63
12715
book_no_slovak_output.txt
Normal file
12715
book_no_slovak_output.txt
Normal file
File diff suppressed because it is too large
Load Diff
@ -1,15 +1,15 @@
|
|||||||
# Словарь для замены словацких символов на обычные буквы
|
# Словарь для замены словацких символов на обычные
|
||||||
|
|
||||||
replacement_dict = {
|
replacement_dict = {
|
||||||
'á': 'a', 'ä': 'a', 'č': 'c', 'ď': 'd', 'é': 'e', 'í': 'i',
|
"á": "a", "ä": "a", "č": "c", "ď": "d", "é": "e", "í": "i", "ĺ": "l", "ľ": "l",
|
||||||
'ĺ': 'l', 'ľ': 'l', 'ň': 'n', 'ó': 'o', 'ô': 'o', 'ŕ': 'r',
|
"ň": "n", "ó": "o", "ô": "o", "ŕ": "r", "š": "s", "ť": "t", "ú": "u", "ý": "y",
|
||||||
'šť': 'st', 'ú': 'u', 'ý': 'y', 'ž': 'z',
|
"ž": "z", "Á": "A", "Ä": "A", "Č": "C", "Ď": "D", "É": "E", "Í": "I", "Ĺ": "L",
|
||||||
'Á': 'A', 'Ä': 'A', 'Č': 'C', 'Ď': 'D', 'É': 'E', 'Í': 'I',
|
"Ľ": "L", "Ň": "N", "Ó": "O", "Ô": "O", "Ŕ": "R", "Š": "S", "Ť": "T", "Ú": "U",
|
||||||
'Ĺ': 'L', 'Ľ': 'L', 'Ň': 'N', 'Ó': 'O', 'Ô': 'O', 'Ŕ': 'R',
|
"Ý": "Y", "Ž": "Z", "ď": "d", "ľ": "l", "ŕ": "r", "ľ": "l", "ž": "z"
|
||||||
'Š': 'S', 'Ú': 'U', 'Ý': 'Y', 'Ž': 'Z'
|
|
||||||
}
|
}
|
||||||
|
|
||||||
# Открываем файл и читаем его содержимое
|
# Открываем файл и читаем его содержимое
|
||||||
with open('skoly_no_caps.txt', 'r', encoding='utf-8', errors='replace') as file:
|
with open('cleaned_book.txt', 'r', encoding='utf-8', errors='replace') as file:
|
||||||
text_content = file.read()
|
text_content = file.read()
|
||||||
|
|
||||||
# Заменяем словацкие символы на обычные буквы
|
# Заменяем словацкие символы на обычные буквы
|
||||||
@ -17,7 +17,7 @@ for slovak_char, english_char in replacement_dict.items():
|
|||||||
text_content = text_content.replace(slovak_char, english_char)
|
text_content = text_content.replace(slovak_char, english_char)
|
||||||
|
|
||||||
# Записываем изменённый текст в новый файл
|
# Записываем изменённый текст в новый файл
|
||||||
with open('skoly_no_slovak_output.txt', 'w', encoding='utf-8') as output_file:
|
with open('book_no_slovak_output.txt', 'w', encoding='utf-8') as output_file:
|
||||||
output_file.write(text_content)
|
output_file.write(text_content)
|
||||||
|
|
||||||
print("Текст успешно нормализован!")
|
print("Текст успешно нормализован!")
|
||||||
|
Loading…
Reference in New Issue
Block a user