Bakalarska_praca/csv_create.py

import csv

# Открываем файлы с правильными и неправильными строками
with open('cleaned_book.txt', 'r', encoding='utf-8', errors='replace') as correct_file:
    correct_lines = correct_file.readlines()

with open('book_no_slovak_output.txt', 'r', encoding='utf-8', errors='replace') as incorrect_file:
    incorrect_lines = incorrect_file.readlines()

# Убедимся, что оба списка строк имеют одинаковую длину
max_length = max(len(correct_lines), len(incorrect_lines))

# Дополняем более короткий список пустыми строками, если это необходимо
correct_lines += [''] * (max_length - len(correct_lines))
incorrect_lines += [''] * (max_length - len(incorrect_lines))

# Открываем CSV файл для записи
with open('dataset_book.csv', 'w', newline='', encoding='utf-8') as csvfile:
    fieldnames = ['correct', 'incorrect']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

    # Записываем заголовок
    writer.writeheader()

    # Записываем строки в CSV файл
    for correct_line, incorrect_line in zip(correct_lines, incorrect_lines):
        writer.writerow({'correct': correct_line.strip(), 'incorrect': incorrect_line.strip()})

print("CSV файл успешно создан!")