假设数据表格的格式如下:
id | date | value |
---|---|---|
1 | 2021-01-01 | 10 |
1 | 2021-02-15 | 20 |
2 | 2021-01-05 | 30 |
2 | 2021-03-20 | 40 |
那么可以按照如下步骤进行处理:
import pandas as pd
df = pd.read_csv("data.csv")
df['date'] = pd.to_datetime(df['date'])
unique_ids = df['id'].unique()
date_ranges = []
for id in unique_ids:
id_df = df[df['id'] == id]
date_range = id_df['date'].max() - id_df['date'].min()
date_ranges.append(date_range)
df['date_range'] = date_ranges
df['month'] = df['date'].dt.month
result = df.groupby('month').mean()['date_range']
最终得到每个月份的平均日期范围。