Python+pandas计算数据关联系数

本文主要演示pandas中DataFrame对象corr()方法的用法,该方法用来计算DataFrame对象中所有列之间的相关系数(包括pearson相关系数和spearman相关系数)。

perason描述的是两个变量之间的线性相关性,当相关系数等于1时,为正相关,x和y正好散落在直线上,并且变量y随着x的增加而增加,当相关系数等于-1时,为负相关,x和y很好的散落在直线上,变量y随着x的增大而减小,当相关系数为0时,两个变量之间互不相关。
(皮尔森相关系数百度介绍:https://baike.baidu.com/item/Pearson%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0/6243913?fr=aladdin)

speraman则描述的是两个变量之间的单调性(斯皮尔曼相关系数百度:https://baike.baidu.com/item/spearman%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0/7977847?fr=aladdin)

直接来干货:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from scipy import linalg
data1=pd.read_csv(r’data_new.csv’,header=None)
data1.head(5)
Python+pandas计算数据关联系数#这里只分析1~8列
data2=data1.loc[:,1:]
#这里查看各列与第8列之间的相关性
data2.corr(method=‘spearman’)
Python+pandas计算数据关联系数
下面是用皮尔森查看关联系数的截图
Python+pandas计算数据关联系数