Bakalarska_praca/csv_create.py
2024-11-10 12:40:38 +01:00

31 lines
1.4 KiB
Python
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

import csv
# Открываем файлы с правильными и неправильными строками
with open('cleaned_book.txt', 'r', encoding='utf-8', errors='replace') as correct_file:
correct_lines = correct_file.readlines()
with open('cleaned_book_typos.txt', 'r', encoding='utf-8', errors='replace') as incorrect_file:
incorrect_lines = incorrect_file.readlines()
# Убедимся, что оба списка строк имеют одинаковую длину
max_length = max(len(correct_lines), len(incorrect_lines))
# Дополняем более короткий список пустыми строками, если это необходимо
correct_lines += [''] * (max_length - len(correct_lines))
incorrect_lines += [''] * (max_length - len(incorrect_lines))
# Открываем CSV файл для записи
with open('dataset_book_typos.csv', 'w', newline='', encoding='utf-8') as csvfile:
fieldnames = ['correct', 'incorrect']
writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
# Записываем заголовок
writer.writeheader()
# Записываем строки в CSV файл
for correct_line, incorrect_line in zip(correct_lines, incorrect_lines):
writer.writerow({'correct': correct_line.strip(), 'incorrect': incorrect_line.strip()})
print("CSV файл успешно создан!")