Bakalarska_praca/data_files/cleaner.py

19 lines
875 B
Python
Raw Normal View History

2024-10-23 11:43:55 +00:00
import re
# Словацкий алфавит (включает буквы с диакритическими знаками)
slovak_alphabet = r'a-zA-ZáäčďéíĺľňóôŕšťúýžÁÄČĎÉÍĹĽŇÓÔŔŠŤÚÝŽ., \n'
# Открываем TXT файл с обработкой ошибок
with open('output.txt', 'r', encoding='utf-8', errors='replace') as file:
text_content = file.read()
# Используем регулярное выражение для замены всех символов, не входящих в словацкий алфавит
cleaned_text = re.sub(f'[^{slovak_alphabet} ]', '', text_content)
# Записываем очищенный текст в новый файл
with open('cleaned_output.txt', 'w', encoding='utf-8') as output_file:
output_file.write(cleaned_text)
print("Текст успешно очищен!")