假设我们已经有了两个品种的数据集,可以使用以下代码来比较其中的两个变量:
# 载入所需的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# 定义两个数据集
df_breed1 = pd.read_csv('breed1_data.csv')
df_breed2 = pd.read_csv('breed2_data.csv')
# 确定要比较的变量列名
var1 = '变量1'
var2 = '变量2'
# 提取两个数据集中的变量值
breed1_var1 = df_breed1[var1]
breed1_var2 = df_breed1[var2]
breed2_var1 = df_breed2[var1]
breed2_var2 = df_breed2[var2]
# 绘制散点图
plt.scatter(breed1_var1, breed1_var2, label='Breed 1')
plt.scatter(breed2_var1, breed2_var2, label='Breed 2')
plt.xlabel(var1)
plt.ylabel(var2)
plt.legend()
plt.show()
# 计算变量的均值和标准差
print('Breed 1: {}, {}'.format(np.mean(breed1_var1), np.mean(breed1_var2)))
print('Breed 2: {}, {}'.format(np.mean(breed2_var1), np.mean(breed2_var2)))
print('Breed 1: {}, {}'.format(np.std(breed1_var1), np.std(breed1_var2)))
print('Breed 2: {}, {}'.format(np.std(breed2_var1), np.std(breed2_var2)))
运行以上代码,我们可以得到两个品种的散点图和对应变量的均值和标准差。可以通过这些统计数据来比较两个品种中两个变量的差异。