下面是一个以年份划分数据集并进行训练测试拆分的示例代码:
import pandas as pd
from sklearn.model_selection import train_test_split
# 读取数据
data = pd.read_csv('data.csv')
# 将日期列转换为日期格式
data['日期'] = pd.to_datetime(data['日期'])
# 按年份划分数据集
data['年份'] = data['日期'].dt.year
# 获取所有年份
years = data['年份'].unique()
# 循环按年份进行训练测试拆分
for year in years:
train_data = data[data['年份'] < year]
test_data = data[data['年份'] == year]
# 做一些其他操作,比如特征工程等
# 划分特征和目标变量
X_train = train_data.drop(['目标变量', '日期', '年份'], axis=1)
y_train = train_data['目标变量']
X_test = test_data.drop(['目标变量', '日期', '年份'], axis=1)
y_test = test_data['目标变量']
# 进行模型训练和测试
# ...
以上代码假设数据文件为data.csv
,其中包含一个日期列和一个目标变量列。首先,我们将日期列转换为日期格式,并创建一个新的列年份
,表示每行数据对应的年份。然后,通过unique()
方法获取所有年份。接下来,我们循环遍历每个年份,将年份之前的数据作为训练集,年份相同的数据作为测试集。在每个循环中,你可以进行其他操作,如特征工程等。最后,我们将特征和目标变量拆分为训练集和测试集,然后可以继续进行模型训练和测试的操作。
上一篇:按年份划分的低于阈值的值的百分比
下一篇:按年份绘制的LDA主题模型