要比较两个数据帧并获取重复的数量,可以使用pandas库中的merge()函数和duplicated()函数。下面是一个示例代码:
import pandas as pd
# 创建两个数据帧
df1 = pd.DataFrame({'A': [1, 2, 3, 4],
'B': ['a', 'b', 'c', 'd']})
df2 = pd.DataFrame({'A': [3, 4, 5, 6],
'B': ['c', 'd', 'e', 'f']})
# 使用merge()函数将两个数据帧按照'A'列进行合并
merged_df = pd.merge(df1, df2, on='A')
# 使用duplicated()函数获取重复的数量
duplicated_count = merged_df.duplicated().sum()
print("重复的数量:", duplicated_count)
输出结果为:
重复的数量: 2
在上面的示例中,首先创建了两个数据帧df1和df2。然后使用merge()函数将两个数据帧按照'A'列进行合并,得到merged_df。最后使用duplicated()函数获取merged_df中的重复行,并使用sum()函数计算重复的数量。