2024-10-23 11:36:14 +00:00
|
|
|
|
import re
|
|
|
|
|
|
|
|
|
|
# Словацкий алфавит (включает буквы с диакритическими знаками)
|
|
|
|
|
slovak_alphabet = r'a-zA-ZáäčďéíĺľňóôŕšťúýžÁÄČĎÉÍĹĽŇÓÔŔŠŤÚÝŽ., \n'
|
|
|
|
|
|
|
|
|
|
# Открываем TXT файл с обработкой ошибок
|
2024-10-29 13:08:43 +00:00
|
|
|
|
with open('skoly.txt', 'r', encoding='utf-8', errors='replace') as file:
|
2024-10-23 11:36:14 +00:00
|
|
|
|
text_content = file.read()
|
|
|
|
|
|
|
|
|
|
# Используем регулярное выражение для замены всех символов, не входящих в словацкий алфавит
|
|
|
|
|
cleaned_text = re.sub(f'[^{slovak_alphabet} ]', '', text_content)
|
|
|
|
|
|
|
|
|
|
# Записываем очищенный текст в новый файл
|
2024-10-29 13:08:43 +00:00
|
|
|
|
with open('cleaned_skoly.txt', 'w', encoding='utf-8') as output_file:
|
2024-10-23 11:36:14 +00:00
|
|
|
|
output_file.write(cleaned_text)
|
|
|
|
|
|
|
|
|
|
print("Текст успешно очищен!")
|
|
|
|
|
|