我们可以使用pandas库来解决这个问题。首先,将数据按照分组条件进行分组。然后,我们可以将日期格式转换为datetime,并将其设置为数据框的索引。 然后,我们可以使用pandas的groupby功能计算每个组中的日期差异。最后,我们将输出转换为所需的格式。代码示例如下:
import pandas as pd
# Sample data
df = pd.DataFrame({
'group': ['A', 'B', 'A', 'B'],
'start': ['2021-01-01', '2021-02-01', '2021-01-15', '2021-02-15'],
'end': ['2021-01-10', '2021-02-05', '2021-01-25', '2021-02-28']
})
# Convert start and end columns to datetime
df['start'] = pd.to_datetime(df['start'])
df['end'] = pd.to_datetime(df['end'])
# Set index as start column
df.set_index('start', inplace=True)
# Calculate difference between dates by group
grp_diff = df.groupby('group')['end'].diff()
# Convert output to string format
grp_diff = grp_diff.dt.days.fillna(0).astype(int).astype(str) + ' days'
# Add output to original dataframe
df['diff'] = grp_diff
# Reset index
df.reset_index(inplace=True)
# Print final dataframe
print(df)
输出结果为:
start group end diff
0 2021-01-01 A 2021-01-10 0 days
1 2021-02-01 B 2021-02-05 0 days
2 2021-01-15 A 2021-01-25 14 days
3 2021-02-15 B 2021-02-28 23 days
需要注意的是,如果某个组中只有一个日期,则diff列中的值将为0 days。如果用相同
上一篇:按组计算累积乘积和累积求和
下一篇:按组计算两列的唯一值数量。”