使用Python中的pandas库可以轻松地按基因名称分组和组合数据集,其中groupby()函数用于按列分组,使用agg()函数可以指定聚合函数计算每个分组的值。例如,以下代码演示了如何将DataFrame按基因名称分组并计算平均值和标准偏差。
import pandas as pd
# 创建示例DataFrame
df = pd.DataFrame({'Gene': ['A', 'A', 'B', 'B'],
'Column1': [1, 2, 3, 4],
'Column2': [5, 6, 7, 8]})
# 分组并计算平均值和标准偏差
grouped = df.groupby('Gene').agg(['mean', 'std'])
print(grouped)
输出结果为:
Column1 Column2
mean std mean std
Gene
A 1.5 0.707107 5.5 0.707107
B 3.5 0.707107 7.5 0.707107
其中,输出结果以基因名称为索引,平均值和标准偏差为列名。这个DataFrame是按基因名称分组后的结果,其中每个基因名称都有它的平均值和标准偏差跨越了两列。