Python进行数据相关性分析的三种方式是什么

魁首哥

作者

Python进行数据相关性分析的三种方式是什么

本文小编为大家详细介绍“Python进行数据相关性分析的三种方式是什么”，内容详细，步骤清晰，细节处理妥当，希望这篇“Python进行数据相关性分析的三种方式是什么”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一起来学习新知识吧。

NumPy 相关性计算

np.corrcoef() 返回 Pearson 相关系数矩阵。

importnumpyasnpx=np.arange(10,20)xarray([10,11,12,13,14,15,16,17,18,19])y=np.array([2,1,4,5,8,12,18,25,96,48])yarray([2,1,4,5,8,12,18,25,96,48])r=np.corrcoef(x,y)rarray([[1.,0.75864029],[0.75864029,1.]])

SciPy 相关性计算

importnumpyasnpimportscipy.statsx=np.arange(10,20)y=np.array([2,1,4,5,8,12,18,25,96,48])scipy.stats.pearsonr(x,y)#Pearson'sr(0.7586402890911869,0.010964341301680832)scipy.stats.spearmanr(x,y)#Spearman'srhoSpearmanrResult(correlation=0.9757575757575757,pvalue=1.4675461874042197e-06)scipy.stats.kendalltau(x,y)#Kendall'stauKendalltauResult(correlation=0.911111111111111,pvalue=2.9761904761904762e-05)

在检验假设时，您可以在统计方法中使用p 值。p 值是一项重要的衡量标准，需要深入了解概率和统计数据才能进行解释。

scipy.stats.pearsonr(x,y)[0]#Pearson'sr0.7586402890911869scipy.stats.spearmanr(x,y)[0]#Spearman'srho0.9757575757575757scipy.stats.kendalltau(x,y)[0]#Kendall'stau0.911111111111111

Pandas 相关性计算

相对于来说计算比较简单。

importpandasaspdx=pd.Series(range(10,20))y=pd.Series([2,1,4,5,8,12,18,25,96,48])x.corr(y)#Pearson'sr0.7586402890911867y.corr(x)0.7586402890911869x.corr(y,method='spearman')#Spearman'srho0.9757575757575757x.corr(y,method='kendall')#Kendall'stau0.911111111111111

线性相关实现

线性相关性测量变量或数据集特征之间的数学关系与线性函数的接近程度。如果两个特征之间的关系更接近某个线性函数，那么它们的线性相关性更强，相关系数的绝对值也更高。

线性回归：SciPy 实现

线性回归是寻找尽可能接近特征之间实际关系的线性函数的过程。换句话说，您确定最能描述特征之间关联的线性函数，这种线性函数也称为回归线。

importpandasaspdx=pd.Series(range(10,20))y=pd.Series([2,1,4,5,8,12,18,25,96,48])

使用scipy.stats.linregress()对两个长度相同的数组执行线性回归。

result=scipy.stats.linregress(x,y)scipy.stats.linregress(xy)LinregressResult(slope=7.4363636363636365,intercept=-85.92727272727274,rvalue=0.7586402890911869,pvalue=0.010964341301680825,stderr=2.257878767543913)result.slope#回归线的斜率7.4363636363636365result.intercept#回归线的截距-85.92727272727274result.rvalue#相关系数0.7586402890911869result.pvalue#p值0.010964341301680825result.stderr#估计梯度的标准误差2.257878767543913

未来更多内容参考机器学习专栏中的线性回归内容。

等级相关

比较与两个变量或数据集特征相关的数据的排名或排序。如果排序相似则相关性强、正且高。但是如果顺序接近反转，则相关性为强、负和低。换句话说等级相关性仅与值的顺序有关，而不与数据集中的特定值有关。

图1和图2显示了较大的 x 值始终对应于较大的 y 值的观察结果，这是完美的正等级相关。图3说明了相反的情况即完美的负等级相关。

排名：SciPy 实现

使用 scipy.stats.rankdata() 来确定数组中每个值的排名。

importnumpyasnpimportscipy.statsx=np.arange(10,20)y=np.array([2,1,4,5,8,12,18,25,96,48])z=np.array([5,3,2,1,0,-2,-8,-11,-15,-16])#获取排名序scipy.stats.rankdata(x)#单调递增array([1.,2.,3.,4.,5.,6.,7.,8.,9.,10.])scipy.stats.rankdata(y)array([2.,1.,3.,4.,5.,6.,7.,8.,10.,9.])scipy.stats.rankdata(z)#单调递减array([10.,9.,8.,7.,6.,5.,4.,3.,2.,1.])

rankdata() 将nan值视为极大。

scipy.stats.rankdata([8,np.nan,0,2])array([3.,4.,1.,2.])

等级相关性：NumPy 和 SciPy 实现

使用 scipy.stats.spearmanr() 计算 Spearman 相关系数。

result=scipy.stats.spearmanr(x,y)resultSpearmanrResult(correlation=0.9757575757575757,pvalue=1.4675461874042197e-06)result.correlation0.9757575757575757result.pvalue1.4675461874042197e-06rho,p=scipy.stats.spearmanr(x,y)rho0.9757575757575757p1.4675461874042197e-06

等级相关性：Pandas 实现

使用 Pandas 计算 Spearman 和 Kendall 相关系数。

importnumpyasnpimportscipy.statsx=np.arange(10,20)y=np.array([2,1,4,5,8,12,18,25,96,48])z=np.array([5,3,2,1,0,-2,-8,-11,-15,-16])x,y,z=pd.Series(x),pd.Series(y),pd.Series(z)xy=pd.DataFrame({'x-values':x,'y-values':y})xyz=pd.DataFrame({'x-values':x,'y-values':y,'z-values':z})

计算 Spearman 的 rho，method=spearman。

x.corr(y,method='spearman')0.9757575757575757xy.corr(method='spearman')x-valuesy-valuesx-values1.0000000.975758y-values0.9757581.000000xyz.corr(method='spearman')x-valuesy-valuesz-valuesx-values1.0000000.975758-1.000000y-values0.9757581.000000-0.975758z-values-1.000000-0.9757581.000000xy.corrwith(z,method='spearman')x-values-1.000000y-values-0.975758dtype:float64

计算 Kendall 的 tau， method=kendall。

x.corr(y,method='kendall')0.911111111111111xy.corr(method='kendall')x-valuesy-valuesx-values1.0000000.911111y-values0.9111111.000000xyz.corr(method='kendall')x-valuesy-valuesz-valuesx-values1.0000000.911111-1.000000y-values0.9111111.000000-0.911111z-values-1.000000-0.9111111.000000xy.corrwith(z,method='kendall')x-values-1.000000y-values-0.911111dtype:float64

带有回归线的 XY 图

使用 linregress() 获得回归线的斜率和截距，以及相关系数。

slope,intercept,r,p,stderr=scipy.stats.linregress(x,y)

构建线性回归公式。

line=f'y={intercept:.2f}+{slope:.2f}x,r={r:.2f}'line'y=-85.93+7.44x,r=0.76'

.plot() 绘图

fig,ax=plt.subplots()ax.plot(x,y,linewidth=0,marker='s',label='Datapoints')ax.plot(x,intercept+slope*x,label=line)ax.set_xlabel('x')ax.set_ylabel('y')ax.legend(facecolor='white')plt.show()