按日期拆分CSV或XLSX文件并设置最大文件大小。_编程开发

按日期拆分CSV或XLSX文件并设置最大文件大小。

创始人

2024-11-05 00:00:55

0次

以下是一个示例代码，用于按日期拆分CSV或XLSX文件并设置最大文件大小：

import pandas as pd
import os

# 设置输入文件路径
input_file = 'input.csv'

# 设置输出文件夹路径
output_folder = 'output'

# 设置最大文件大小（以字节为单位）
max_file_size = 5000000

# 加载CSV或XLSX文件
df = pd.read_csv(input_file)  # 如果是XLSX文件，可以使用pd.read_excel()函数

# 按日期拆分文件
df['date'] = pd.to_datetime(df['date'])  # 假设日期列名为'date'
dates = df['date'].dt.date.unique()

for date in dates:
    # 筛选当前日期的数据
    df_date = df[df['date'].dt.date == date]
    
    # 检查文件大小是否超过最大文件大小
    file_size = df_date.memory_usage().sum()  # 获取数据框所占内存大小
    if file_size > max_file_size:
        # 如果文件大小超过最大文件大小，则拆分为多个文件
        num_files = int(file_size / max_file_size) + 1  # 计算所需的文件数量
        chunk_size = int(len(df_date) / num_files)  # 计算每个文件的行数
        
        for i in range(num_files):
            # 计算当前文件的起始和结束索引
            start_index = i * chunk_size
            end_index = start_index + chunk_size if i < num_files - 1 else len(df_date)
            
            # 创建子数据框
            df_chunk = df_date.iloc[start_index:end_index]
            
            # 生成输出文件名
            output_file = os.path.join(output_folder, f'{date}_{i+1}.csv')
            
            # 保存子数据框为CSV文件
            df_chunk.to_csv(output_file, index=False)  # 如果要保存为XLSX文件，可以使用.to_excel()函数
    else:
        # 如果文件大小未超过最大文件大小，则保存为单个文件
        output_file = os.path.join(output_folder, f'{date}.csv')
        df_date.to_csv(output_file, index=False)  # 如果要保存为XLSX文件，可以使用.to_excel()函数

以上代码将输入文件按日期拆分为多个CSV文件，并将它们保存在指定的输出文件夹中。如果拆分后的文件大小超过最大文件大小，则会将其拆分为多个文件。拆分后的文件命名方式为日期_编号.csv（例如，2022-01-01_1.csv），其中编号表示拆分后的文件序号。您可以根据需要调整输入文件路径、输出文件夹路径和最大文件大小的值。

上一篇：按日期差分类的主表

下一篇：按日期拆分多个相同文件，并选择最新日期的文件。

按日期拆分CSV或XLSX文件并设置最大文件大小。

相关内容

热门资讯