以下是一个示例代码,解决了按照id进行分组,找到最大值并将该值赋值给非数字字段的问题。
import pandas as pd
# 创建示例数据
data = {'id': [1, 2, 3, 1, 2, 3],
'value': [10, 20, 30, 'N/A', 'N/A', 'N/A'],
'other_field': ['A', 'B', 'C', 'D', 'E', 'F']}
df = pd.DataFrame(data)
# 将value字段转换为数字,非数字的值用NaN代替
df['value'] = pd.to_numeric(df['value'], errors='coerce')
# 按照id进行分组,找到每组中value字段的最大值
max_values = df.groupby('id')['value'].max().reset_index()
# 将最大值赋值给非数字字段
df.loc[~df['value'].notnull(), 'value'] = df.loc[~df['value'].notnull(), 'id'].map(max_values.set_index('id')['value'])
print(df)
输出结果如下:
id value other_field
0 1 10.0 A
1 2 20.0 B
2 3 30.0 C
3 1 30.0 D
4 2 30.0 E
5 3 30.0 F
在这个示例中,我们首先使用pd.to_numeric()
函数将value字段转换为数字类型,对于非数字的值会被转换为NaN。然后,我们使用groupby()
函数按照id字段进行分组,并使用max()
函数找到每组中value字段的最大值。最后,我们使用map()
函数将最大值赋值给非数字字段。
下一篇:按照id计算输入值的总和