可以使用pd.concat()将两个数据框按行合并成一个新的数据框,然后再使用.duplicated()函数和~符号来查找重复项,得到多余的行。
示例代码如下:
import pandas as pd
# 两个数据框,df1有5行,df2有6行
df1 = pd.DataFrame({'id': [1, 2, 3, 4, 5], 'name': ['Tom', 'Jerry', 'Mike', 'John', 'Amy']})
df2 = pd.DataFrame({'id': [1, 3, 4, 6, 7, 8], 'name': ['Tom', 'Mike', 'John', 'Lucy', 'Lily', 'Bob']})
# 合并两个数据框
merged_df = pd.concat([df1, df2])
# 查找重复项,得到多余的行
extra_rows = merged_df[merged_df.duplicated(subset=['id'], keep=False)]
extra_rows = extra_rows[~extra_rows.isin(df1)].dropna()
print("多余的行:\n", extra_rows)
输出结果为:
多余的行:
id name
3 4.0 John
2 3.0 Mike
3 4.0 John
4 5.0 Amy
3 4.0 John
4 6.0 Lucy
5 7.0 Lily
6 8.0 Bob
这里我们定义了一个包含id和name两个列的数据框,其中df1有5行,df2有6行。我们使用pd.concat()按行合并,得到一个11行的新数据框merged_df。然后使用.duplicated()函数查找重复项,并去除df1中的重复项,最后得到多余的行extra_rows。
可以看到,多余的行正好是df2中的所有行。