34 lines
1.5 KiB
Python
34 lines
1.5 KiB
Python
import re
|
||
|
||
# Открываем файл и читаем его содержимое
|
||
with open('cleaned.txt', 'r', encoding='utf-8', errors='replace') as file:
|
||
text_content = file.read()
|
||
|
||
# Функция для преобразования слов
|
||
def normalize_caps(text):
|
||
# Разделяем текст на строки
|
||
lines = text.splitlines()
|
||
# Обрабатываем каждую строку
|
||
normalized_lines = []
|
||
for line in lines:
|
||
# Разделяем строку на слова
|
||
words = line.split()
|
||
# Проверяем каждое слово
|
||
for i, word in enumerate(words):
|
||
if word.isupper(): # Если слово написано полностью заглавными буквами
|
||
words[i] = word.capitalize() # Меняем на первое заглавное и остальные строчные
|
||
# Собираем слова обратно в строку и добавляем в список
|
||
normalized_lines.append(' '.join(words))
|
||
# Собираем строки обратно в текст
|
||
return '\n'.join(normalized_lines)
|
||
|
||
# Применяем нормализацию
|
||
normalized_text = normalize_caps(text_content)
|
||
|
||
# Записываем изменённый текст в новый файл
|
||
with open('slovak_no_caps.txt', 'w', encoding='utf-8') as output_file:
|
||
output_file.write(normalized_text)
|
||
|
||
print("Текст успешно нормализован!")
|
||
|