下面是一个示例代码,演示如何按列拆分一个大型CSV文件:
import csv
def split_csv(filename, column, output_prefix):
    # 打开原始CSV文件
    with open(filename, 'r') as file:
        reader = csv.reader(file)
        headers = next(reader)  # 读取表头
        # 确定拆分的列索引
        try:
            column_index = headers.index(column)
        except ValueError:
            print(f'Column "{column}" not found in the CSV file')
            return
        # 创建输出文件
        output_files = {}
        for header in headers:
            if header != column:
                output_files[header] = open(f'{output_prefix}_{header}.csv', 'w', newline='')
                writer = csv.writer(output_files[header])
                writer.writerow(headers)
        # 拆分CSV文件并写入输出文件
        for row in reader:
            for header, file in output_files.items():
                writer = csv.writer(file)
                writer.writerow(row[:column_index] + row[column_index+1:])
        # 关闭输出文件
        for file in output_files.values():
            file.close()
        print('CSV file split successfully')
# 使用示例
split_csv('input.csv', 'column_name', 'output')
上述代码使用Python的csv模块来处理CSV文件。它首先打开原始的CSV文件并读取表头。然后,它确定要拆分的列索引。接下来,它创建了多个输出文件,每个文件对应一个非拆分列,并将表头写入每个输出文件。然后,它遍历原始CSV文件的每一行,将非拆分列的数据写入相应的输出文件。最后,它关闭所有输出文件。请注意,在上面的示例中,您需要将filename替换为实际的CSV文件名,将column替换为要拆分的列名称,并将output_prefix替换为输出文件的前缀名称。