以下是一个比较多个数据框并添加新列的示例代码,用二进制值填充匹配项:
import pandas as pd
# 创建数据框
df1 = pd.DataFrame({'A': [1, 2, 3, 4, 5],
'B': ['a', 'b', 'c', 'd', 'e']})
df2 = pd.DataFrame({'C': [1, 2, 3, 4, 5],
'D': ['f', 'g', 'h', 'i', 'j']})
df3 = pd.DataFrame({'E': [1, 2, 3, 4, 5],
'F': ['k', 'l', 'm', 'n', 'o']})
# 设置匹配列
match_column = 'A'
# 将所有数据框放入列表中
dfs = [df1, df2, df3]
# 创建结果数据框
result = pd.DataFrame()
# 遍历每个数据框
for df in dfs:
# 判断匹配列是否存在于当前数据框中
if match_column in df.columns:
# 添加新列,如果匹配项存在则填充为1,否则填充为0
result = pd.concat([result, df[match_column].isin(df1[match_column]).astype(int)], axis=1)
else:
# 如果匹配列不存在,则添加空列
result = pd.concat([result, pd.Series([0] * len(df))], axis=1)
# 重命名结果数据框的列名
result.columns = ['Match_df1', 'Match_df2', 'Match_df3']
# 输出结果数据框
print(result)
输出结果将显示每个数据框中的匹配项,使用二进制值填充匹配项。如果匹配项存在,则填充为1,否则填充为0。