利用pandas分析表格中数据的相关性
先把数组形式的数据转换为DataFrame形式
import pandas as pd
pd_data = pd.DataFrame(array_data)
显示各元素间的相关性
pd_data.corr()
筛选出相关性大于0.8且不等于1的数据
pd_data.corr()[(pd_data.corr() > 0.8) & (pd_data.corr() != 1)]
##这里的相关系数为皮尔逊相关,大于0.8表示具有强相关性,对角线相关性为1表示元素与自身的相关性为最大值1.
##筛选结果,NaN(Not a Number) 表示被筛掉的部分