Bakalarska_praca/data_files/remove_caps.py

34 lines
1.5 KiB
Python
Raw Permalink Normal View History

2024-10-23 11:43:55 +00:00
import re
# Открываем файл и читаем его содержимое
with open('cleaned.txt', 'r', encoding='utf-8', errors='replace') as file:
text_content = file.read()
# Функция для преобразования слов
def normalize_caps(text):
# Разделяем текст на строки
lines = text.splitlines()
# Обрабатываем каждую строку
normalized_lines = []
for line in lines:
# Разделяем строку на слова
words = line.split()
# Проверяем каждое слово
for i, word in enumerate(words):
if word.isupper(): # Если слово написано полностью заглавными буквами
words[i] = word.capitalize() # Меняем на первое заглавное и остальные строчные
# Собираем слова обратно в строку и добавляем в список
normalized_lines.append(' '.join(words))
# Собираем строки обратно в текст
return '\n'.join(normalized_lines)
# Применяем нормализацию
normalized_text = normalize_caps(text_content)
# Записываем изменённый текст в новый файл
with open('slovak_no_caps.txt', 'w', encoding='utf-8') as output_file:
output_file.write(normalized_text)
print("Текст успешно нормализован!")