Bakalarska_praca/data_files/remove_caps.py

import re

# Открываем файл и читаем его содержимое
with open('cleaned.txt', 'r', encoding='utf-8', errors='replace') as file:
    text_content = file.read()

# Функция для преобразования слов
def normalize_caps(text):
    # Разделяем текст на строки
    lines = text.splitlines()
    # Обрабатываем каждую строку
    normalized_lines = []
    for line in lines:
        # Разделяем строку на слова
        words = line.split()
        # Проверяем каждое слово
        for i, word in enumerate(words):
            if word.isupper():  # Если слово написано полностью заглавными буквами
                words[i] = word.capitalize()  # Меняем на первое заглавное и остальные строчные
        # Собираем слова обратно в строку и добавляем в список
        normalized_lines.append(' '.join(words))
    # Собираем строки обратно в текст
    return '\n'.join(normalized_lines)

# Применяем нормализацию
normalized_text = normalize_caps(text_content)

# Записываем изменённый текст в новый файл
with open('slovak_no_caps.txt', 'w', encoding='utf-8') as output_file:
    output_file.write(normalized_text)

print("Текст успешно нормализован!")