以下是一个示例代码,展示了如何比较两个数据框中的列值,并将它们合并为一个新的数据框:
import pandas as pd
# 创建第一个数据框
df1 = pd.DataFrame({'A': [1, 2, 3],
'B': ['a', 'b', 'c']})
# 创建第二个数据框
df2 = pd.DataFrame({'A': [1, 2, 4],
'B': ['a', 'b', 'd']})
# 比较两个数据框的列值并合并
df_merged = pd.merge(df1, df2, on='A', how='outer')
df_merged.columns = ['A', 'B_df1', 'B_df2']
df_merged['B_match'] = df_merged['B_df1'] == df_merged['B_df2']
df_merged['B_match'] = df_merged['B_match'].replace({True: 'Match', False: 'Mismatch'})
print(df_merged)
输出结果如下:
A B_df1 B_df2 B_match
0 1 a a Match
1 2 b b Match
2 3 c NaN Mismatch
3 4 NaN d Mismatch
在这个示例中,我们创建了两个数据框df1和df2,它们有相同的列名'A'和'B',但是'B'列中的值有一些差异。我们使用pd.merge
函数将两个数据框根据'A'列进行合并,并使用'outer'方法来保留所有的行。然后,我们将合并后的数据框的列重命名为'B_df1'和'B_df2',以区分两个数据框中的'B'列。接下来,我们创建了一个新的列'B_match',将两个数据框中的'B'列进行比较,并将比较结果存储为'Match'或'Mismatch'。最后,我们打印输出合并后的数据框。
上一篇:比较两个或多个CSV文件的进阶版
下一篇:比较两个ID列中的新条目。