以下是一个示例代码,用于按日期拆分CSV或XLSX文件并设置最大文件大小:
import pandas as pd
import os
# 设置输入文件路径
input_file = 'input.csv'
# 设置输出文件夹路径
output_folder = 'output'
# 设置最大文件大小(以字节为单位)
max_file_size = 5000000
# 加载CSV或XLSX文件
df = pd.read_csv(input_file) # 如果是XLSX文件,可以使用pd.read_excel()函数
# 按日期拆分文件
df['date'] = pd.to_datetime(df['date']) # 假设日期列名为'date'
dates = df['date'].dt.date.unique()
for date in dates:
# 筛选当前日期的数据
df_date = df[df['date'].dt.date == date]
# 检查文件大小是否超过最大文件大小
file_size = df_date.memory_usage().sum() # 获取数据框所占内存大小
if file_size > max_file_size:
# 如果文件大小超过最大文件大小,则拆分为多个文件
num_files = int(file_size / max_file_size) + 1 # 计算所需的文件数量
chunk_size = int(len(df_date) / num_files) # 计算每个文件的行数
for i in range(num_files):
# 计算当前文件的起始和结束索引
start_index = i * chunk_size
end_index = start_index + chunk_size if i < num_files - 1 else len(df_date)
# 创建子数据框
df_chunk = df_date.iloc[start_index:end_index]
# 生成输出文件名
output_file = os.path.join(output_folder, f'{date}_{i+1}.csv')
# 保存子数据框为CSV文件
df_chunk.to_csv(output_file, index=False) # 如果要保存为XLSX文件,可以使用.to_excel()函数
else:
# 如果文件大小未超过最大文件大小,则保存为单个文件
output_file = os.path.join(output_folder, f'{date}.csv')
df_date.to_csv(output_file, index=False) # 如果要保存为XLSX文件,可以使用.to_excel()函数
以上代码将输入文件按日期拆分为多个CSV文件,并将它们保存在指定的输出文件夹中。如果拆分后的文件大小超过最大文件大小,则会将其拆分为多个文件。拆分后的文件命名方式为日期_编号.csv
(例如,2022-01-01_1.csv
),其中编号表示拆分后的文件序号。您可以根据需要调整输入文件路径、输出文件夹路径和最大文件大小的值。
上一篇:按日期差分类的主表