以下是一个示例代码,根据首次开始日期将数据分组:
import pandas as pd
# 创建一个示例数据集
data = {
'Name': ['John', 'Amy', 'Tom', 'Jerry', 'Lisa'],
'Start Date': ['2020-01-01', '2019-12-15', '2020-01-01', '2020-02-01', '2020-01-15'],
'Salary': [50000, 60000, 55000, 45000, 70000]
}
df = pd.DataFrame(data)
# 将Start Date列转换为日期类型
df['Start Date'] = pd.to_datetime(df['Start Date'])
# 按首次开始日期分组
groups = df.groupby(df['Start Date']).groups
# 打印每个分组的数据
for start_date, indices in groups.items():
print(f"Group: {start_date}")
print(df.loc[indices])
print()
在这个示例代码中,我们首先使用pandas库创建了一个示例数据集。然后,我们将"Start Date"列转换为日期类型,以便能够按日期进行分组。接下来,我们使用groupby
函数根据"Start Date"列的值进行分组,并使用groups
属性获取一个字典对象,其中键是分组的值,值是对应的索引列表。最后,我们使用loc
函数根据索引列表打印每个分组的数据。
请注意,示例数据集中的日期格式为"YYYY-MM-DD",如果您的日期格式不同,您可能需要调整代码中的日期转换部分。
下一篇:按首个字符出现的次数计数