以下是一个示例代码,演示如何按日期范围拆分数据集:
import pandas as pd
# 创建示例数据集
data = {'日期': pd.date_range(start='2022-01-01', end='2022-01-31'),
'数值': range(1, 32)}
df = pd.DataFrame(data)
# 按日期范围拆分数据集
start_date = pd.to_datetime('2022-01-01')
end_date = pd.to_datetime('2022-01-31')
date_ranges = pd.date_range(start=start_date, end=end_date, freq='7D')
for i in range(len(date_ranges) - 1):
start = date_ranges[i]
end = date_ranges[i+1]
subset = df[(df['日期'] >= start) & (df['日期'] < end)]
subset.to_csv(f'data_subset_{start.date()}_{end.date()}.csv', index=False)
在此示例中,首先使用pandas
库创建了一个示例数据集df
,其中包含日期和数值两列。然后,指定了要拆分的日期范围的起始日期start_date
和结束日期end_date
。
接下来,使用pd.date_range
函数生成按7天间隔的日期范围。然后,使用一个循环来遍历这些日期范围,并根据每个范围从原始数据集中筛选出子集。最后,将每个子集保存为一个独立的CSV文件,文件名包含了该子集的日期范围。
这样,原始数据集就按日期范围成功拆分成了多个子集,并保存为单独的CSV文件。