下面是一个示例代码,演示如何按列拆分一个大型CSV文件:
import csv
def split_csv(filename, column, output_prefix):
# 打开原始CSV文件
with open(filename, 'r') as file:
reader = csv.reader(file)
headers = next(reader) # 读取表头
# 确定拆分的列索引
try:
column_index = headers.index(column)
except ValueError:
print(f'Column "{column}" not found in the CSV file')
return
# 创建输出文件
output_files = {}
for header in headers:
if header != column:
output_files[header] = open(f'{output_prefix}_{header}.csv', 'w', newline='')
writer = csv.writer(output_files[header])
writer.writerow(headers)
# 拆分CSV文件并写入输出文件
for row in reader:
for header, file in output_files.items():
writer = csv.writer(file)
writer.writerow(row[:column_index] + row[column_index+1:])
# 关闭输出文件
for file in output_files.values():
file.close()
print('CSV file split successfully')
# 使用示例
split_csv('input.csv', 'column_name', 'output')
上述代码使用Python的csv模块来处理CSV文件。它首先打开原始的CSV文件并读取表头。然后,它确定要拆分的列索引。接下来,它创建了多个输出文件,每个文件对应一个非拆分列,并将表头写入每个输出文件。然后,它遍历原始CSV文件的每一行,将非拆分列的数据写入相应的输出文件。最后,它关闭所有输出文件。请注意,在上面的示例中,您需要将filename
替换为实际的CSV文件名,将column
替换为要拆分的列名称,并将output_prefix
替换为输出文件的前缀名称。