以下是一个使用Python Pandas库进行按照ID和日期进行子采样的示例代码:
import pandas as pd
# 创建一个示例数据框
data = {'ID': ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
'Date': ['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-01', '2021-01-02', '2021-01-03', '2021-01-01', '2021-01-02', '2021-01-03'],
'Value': [1, 2, 3, 4, 5, 6, 7, 8, 9]}
df = pd.DataFrame(data)
# 将日期列转换为日期类型
df['Date'] = pd.to_datetime(df['Date'])
# 按照ID和日期进行子采样,每个ID每个日期最多选择两个样本
subsample = df.groupby(['ID', 'Date']).apply(lambda x: x.sample(n=2, random_state=0)).reset_index(drop=True)
print(subsample)
运行以上代码,输出的结果将是按照ID和日期进行子采样的数据框。每个ID每个日期最多选择两个样本,结果如下:
ID Date Value
0 A 2021-01-01 1
1 A 2021-01-02 2
2 B 2021-01-01 4
3 B 2021-01-02 5
4 C 2021-01-01 7
5 C 2021-01-02 8
请注意,示例代码中的data
字典是一个示例数据集,你可以根据自己的实际数据进行替换。