2024-10-23 11:36:14 +00:00
|
|
|
|
import re
|
|
|
|
|
|
|
|
|
|
# Открываем файл и читаем его содержимое
|
2024-10-29 13:08:43 +00:00
|
|
|
|
with open('cleaned_skoly.txt', 'r', encoding='utf-8', errors='replace') as file:
|
2024-10-23 11:36:14 +00:00
|
|
|
|
text_content = file.read()
|
|
|
|
|
|
|
|
|
|
# Функция для преобразования слов
|
|
|
|
|
def normalize_caps(text):
|
|
|
|
|
# Разделяем текст на строки
|
|
|
|
|
lines = text.splitlines()
|
|
|
|
|
# Обрабатываем каждую строку
|
|
|
|
|
normalized_lines = []
|
|
|
|
|
for line in lines:
|
|
|
|
|
# Разделяем строку на слова
|
|
|
|
|
words = line.split()
|
|
|
|
|
# Проверяем каждое слово
|
|
|
|
|
for i, word in enumerate(words):
|
|
|
|
|
if word.isupper(): # Если слово написано полностью заглавными буквами
|
|
|
|
|
words[i] = word.capitalize() # Меняем на первое заглавное и остальные строчные
|
|
|
|
|
# Собираем слова обратно в строку и добавляем в список
|
|
|
|
|
normalized_lines.append(' '.join(words))
|
|
|
|
|
# Собираем строки обратно в текст
|
|
|
|
|
return '\n'.join(normalized_lines)
|
|
|
|
|
|
|
|
|
|
# Применяем нормализацию
|
|
|
|
|
normalized_text = normalize_caps(text_content)
|
|
|
|
|
|
|
|
|
|
# Записываем изменённый текст в новый файл
|
2024-10-29 13:08:43 +00:00
|
|
|
|
with open('skoly_no_caps.txt', 'w', encoding='utf-8') as output_file:
|
2024-10-23 11:36:14 +00:00
|
|
|
|
output_file.write(normalized_text)
|
|
|
|
|
|
|
|
|
|
print("Текст успешно нормализован!")
|
|
|
|
|
|