Bakalarska_praca/data_files/remove_caps.py
2024-10-23 13:43:55 +02:00

34 lines
1.5 KiB
Python
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

import re
# Открываем файл и читаем его содержимое
with open('cleaned.txt', 'r', encoding='utf-8', errors='replace') as file:
text_content = file.read()
# Функция для преобразования слов
def normalize_caps(text):
# Разделяем текст на строки
lines = text.splitlines()
# Обрабатываем каждую строку
normalized_lines = []
for line in lines:
# Разделяем строку на слова
words = line.split()
# Проверяем каждое слово
for i, word in enumerate(words):
if word.isupper(): # Если слово написано полностью заглавными буквами
words[i] = word.capitalize() # Меняем на первое заглавное и остальные строчные
# Собираем слова обратно в строку и добавляем в список
normalized_lines.append(' '.join(words))
# Собираем строки обратно в текст
return '\n'.join(normalized_lines)
# Применяем нормализацию
normalized_text = normalize_caps(text_content)
# Записываем изменённый текст в новый файл
with open('slovak_no_caps.txt', 'w', encoding='utf-8') as output_file:
output_file.write(normalized_text)
print("Текст успешно нормализован!")