假设有两个数据框df1和df2,分别包含字符串列'col1'和'col2':
import pandas as pd
# 创建sample数据框
df1 = pd.DataFrame({'col1': ['abcde', 'fghij', 'lmnop'], 'col3': [1, 2, 3]})
df2 = pd.DataFrame({'col2': ['bc', 'kl', 'mn'], 'col4': [4, 5, 6]})
# 基于df1['col1']和df2['col2']的子字符串创建布尔掩码
mask = df1['col1'].str.contains('|'.join(df2['col2']), regex=True)
# 在df1上应用掩码以过滤非匹配行
df1_filtered = df1.loc[mask].reset_index(drop=True)
在此示例中,我们使用正则表达式匹配和逻辑运算符'or'来创建一个布尔掩码,以过滤出仅与df2['col2']中至少有一个子字符串匹配的行。最后,我们将应用布尔掩码来过滤df1中的不匹配行,并使用reset_index()方法重置行索引。