可以使用Pandas库来解决此问题。首先读入数据,假设数据集存储在一个名为“df”的数据框中,其中包含一个“date”列和一个“value”列:
import pandas as pd
df = pd.read_csv('data.csv')
接下来,我们可以使用groupby()
方法按日期分组,并使用sum()
方法计算每个日期的总和。最后,我们可以使用quantile()
方法找到前1%的值的阈值,并使用loc()
方法来获取这些值的总和:
# 分组并计算日期总和
grouped_df = df.groupby('date').sum()
# 找到前1%值的阈值
threshold = grouped_df['value'].quantile(0.99)
# 对大于阈值的值进行求和
top_1_sum = grouped_df.loc[grouped_df['value'] > threshold, 'value'].sum()
这将返回一个包含前1%阈值以上所有数值的总和的变量“top_1_sum”。
上一篇:按日期分组并对列求和