以下是一个示例代码,用于检查某一列的值是否包含在其他行中:
import pandas as pd
# 创建一个示例数据集
data = {'Name': ['Tom', 'Nick', 'John', 'Tom', 'Chris'],
'Age': [20, 21, 22, 20, 23]}
df = pd.DataFrame(data)
# 添加一个标记列,默认为False
df['Contains Duplicate'] = False
# 遍历每一行
for index, row in df.iterrows():
# 获取当前行的Name值
name = row['Name']
# 检查其他行是否包含相同的Name值
if df[df['Name'] == name].shape[0] > 1:
# 如果存在重复值,则将标记列设置为True
df.at[index, 'Contains Duplicate'] = True
# 打印结果
print(df)
输出结果如下:
Name Age Contains Duplicate
0 Tom 20 True
1 Nick 21 False
2 John 22 False
3 Tom 20 True
4 Chris 23 False
在上述示例中,我们使用了Pandas库来处理数据。我们首先创建一个包含Name和Age列的DataFrame对象。然后,我们添加了一个名为"Contains Duplicate"的新列,并将其所有值设置为False。
接下来,我们使用iterrows()方法遍历每一行。对于每一行,我们获取其Name值,并使用df[df['Name'] == name]语句检查是否存在其他行具有相同的Name值。如果存在重复值,则我们使用at[index, 'Contains Duplicate'] = True将标记列设置为True。
最后,我们打印出DataFrame对象以查看结果。
上一篇:标记列表中的元素
下一篇:标记满足两个条件的行