在Python中,我们可以使用pandas库来解决按多列分组的问题。pandas是一个强大的数据分析库,它可以轻松地处理和操作大量的数据。
下面是一个示例代码,展示了如何使用pandas来按多列分组:
import pandas as pd
# 创建一个示例数据集
data = {'Name': ['Tom', 'Nick', 'John', 'Tom', 'Nick', 'John'],
'City': ['New York', 'Paris', 'London', 'New York', 'Paris', 'London'],
'Age': [30, 25, 35, 30, 25, 35],
'Salary': [5000, 4000, 6000, 5000, 4000, 6000]}
df = pd.DataFrame(data)
# 按多列分组,并计算平均工资
grouped = df.groupby(['Name', 'City'])
avg_salary = grouped['Salary'].mean()
print(avg_salary)
在上面的代码中,我们首先创建了一个示例数据集,其中包含了姓名、城市、年龄和薪水等信息。然后,我们使用groupby方法来按照“姓名”和“城市”这两列进行分组。最后,我们使用mean方法来计算每个分组的平均薪水。
输出结果如下所示:
Name City
John London 6000
Nick Paris 4000
Tom New York 5000
Name: Salary, dtype: int64
可以看到,输出结果按照“姓名”和“城市”进行了分组,并计算了每个分组的平均薪水。
这只是一个简单的示例,pandas库还提供了许多其他强大的功能,可以帮助我们更灵活地处理和分析数据。你可以根据自己的具体需求,进一步扩展和优化这段代码。
上一篇:按多列分组获取前n行