34 lines
1.5 KiB
Python
34 lines
1.5 KiB
Python
|
import re
|
|||
|
|
|||
|
# Открываем файл и читаем его содержимое
|
|||
|
with open('cleaned.txt', 'r', encoding='utf-8', errors='replace') as file:
|
|||
|
text_content = file.read()
|
|||
|
|
|||
|
# Функция для преобразования слов
|
|||
|
def normalize_caps(text):
|
|||
|
# Разделяем текст на строки
|
|||
|
lines = text.splitlines()
|
|||
|
# Обрабатываем каждую строку
|
|||
|
normalized_lines = []
|
|||
|
for line in lines:
|
|||
|
# Разделяем строку на слова
|
|||
|
words = line.split()
|
|||
|
# Проверяем каждое слово
|
|||
|
for i, word in enumerate(words):
|
|||
|
if word.isupper(): # Если слово написано полностью заглавными буквами
|
|||
|
words[i] = word.capitalize() # Меняем на первое заглавное и остальные строчные
|
|||
|
# Собираем слова обратно в строку и добавляем в список
|
|||
|
normalized_lines.append(' '.join(words))
|
|||
|
# Собираем строки обратно в текст
|
|||
|
return '\n'.join(normalized_lines)
|
|||
|
|
|||
|
# Применяем нормализацию
|
|||
|
normalized_text = normalize_caps(text_content)
|
|||
|
|
|||
|
# Записываем изменённый текст в новый файл
|
|||
|
with open('slovak_no_caps.txt', 'w', encoding='utf-8') as output_file:
|
|||
|
output_file.write(normalized_text)
|
|||
|
|
|||
|
print("Текст успешно нормализован!")
|
|||
|
|