以下是一个示例代码,演示如何按多列对大数据集进行分组和聚合:
import pandas as pd
# 创建一个示例数据集
data = {'Name': ['Tom', 'Nick', 'John', 'Tom', 'Nick'],
'Age': [28, 32, 25, 28, 32],
'Salary': [5000, 6000, 5500, 5000, 6000]}
df = pd.DataFrame(data)
# 按多列分组和聚合
grouped = df.groupby(['Name', 'Age']).agg({'Salary': 'sum'})
print(grouped)
输出结果:
Salary
Name Age
John 25 5500
Nick 32 12000
Tom 28 10000
在上述示例中,我们使用pandas库创建了一个数据集df。然后,我们使用groupby函数将数据集按Name和Age两列进行分组。然后,我们使用agg函数对Salary列进行求和聚合操作。最后,我们打印出了分组和聚合后的结果。