下面是一个比较数据帧列并返回差异的扩展的代码示例:
import pandas as pd
def compare_dataframe_columns(df1, df2):
# 获取两个数据帧的列名
columns1 = set(df1.columns)
columns2 = set(df2.columns)
# 找出在df1中存在但在df2中不存在的列
columns_only_in_df1 = columns1 - columns2
# 找出在df2中存在但在df1中不存在的列
columns_only_in_df2 = columns2 - columns1
return columns_only_in_df1, columns_only_in_df2
# 创建示例数据帧
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [1, 2, 3], 'C': [7, 8, 9]})
# 比较数据帧列并返回差异
diff1, diff2 = compare_dataframe_columns(df1, df2)
print("在df1中而不在df2中的列:", diff1)
print("在df2中而不在df1中的列:", diff2)
输出结果:
在df1中而不在df2中的列: {'B'}
在df2中而不在df1中的列: {'C'}
在这个示例中,我们定义了一个compare_dataframe_columns
函数来比较两个数据帧的列并返回差异。这个函数使用set
数据结构来获取每个数据帧的列名,并计算出只在一个数据帧中存在的列。最后,我们通过调用这个函数来比较示例数据帧df1
和df2
的列,并打印出差异的结果。
上一篇:比较数据帧的列
下一篇:比较数据帧和列表中的值