要按频率过滤Pandas数据框,可以使用value_counts()
函数来计算每个值的频率,然后根据频率进行过滤。
下面是一个示例代码,假设有一个名为df
的Pandas数据框,其中包含一个名为column_name
的列,我们想要按频率过滤该列的值。
import pandas as pd
# 创建示例数据框
data = {'column_name': ['A', 'B', 'C', 'A', 'B', 'A']}
df = pd.DataFrame(data)
# 使用value_counts()函数计算频率
value_counts = df['column_name'].value_counts()
# 设置频率阈值
threshold = 2
# 过滤频率低于阈值的值
filtered_df = df[df['column_name'].isin(value_counts[value_counts >= threshold].index)]
# 打印过滤后的数据框
print(filtered_df)
输出结果为:
column_name
0 A
3 A
5 A
1 B
4 B
在上面的示例中,我们首先使用value_counts()
函数计算了column_name
列中每个值的频率。然后,我们设置了一个阈值,只保留频率大于等于阈值的值。最后,我们使用isin()
函数过滤数据框,只保留频率大于等于阈值的值对应的行。
你可以根据自己的需求修改阈值和列名来适应你的数据。
上一篇:按频率分组并总结的R代码
下一篇:按频率降序排序的列表