Bakalarska_praca/diffs_datasets.py

22 lines
1.0 KiB
Python
Raw Permalink Normal View History

2024-11-11 22:51:16 +00:00
import pandas as pd
def filter_different_pairs(input_file, output_file, column1, column2):
# Загружаем данные из исходного CSV-файла
df = pd.read_csv(input_file)
# Проверяем строки, где значения в двух столбцах различаются
df_filtered = df[df[column1] != df[column2]]
# Сохраняем результат в новый CSV-файл
df_filtered.to_csv(output_file, index=False)
# Параметры
input_file = "dataset_book_typos.csv" # Путь к исходному файлу
output_file = "filtered_book_typos.csv" # Путь к файлу, куда сохранить результат
column1 = "correct" # Название первого столбца для сравнения
column2 = "incorrect" # Название второго столбца для сравнения
# Запуск функции
filter_different_pairs(input_file, output_file, column1, column2)