pandas带有重复值的轴索引,汇总和计算描述统计,相关系数与协方差
1、索引属性is_nuique判断值是否唯一
如果索引对应多个值,则返回一个Series,而对应单个值的,则返回一个标量值
2、汇总和计算描述统计
axis:约简的轴。DataFrame的行用0列用1表示
skipna:排除缺失值,默认值为True
level:如果轴是层次化索引的,则根据level分组简约
count | 非NA值的数量 |
descirbe | 针对Series和DateFrame计算汇总统计 |
min.max | 计算最大值和最小值 |
argmin,argmax | 计算最大值最小值的索引位置 |
idxmin,idxmax | 计算最大值和最小值的索引值 |
quantile | 计算样本的分位数 |
sum | 值总和 |
mean | 值的平均值 |
median | 值的算数中位数 |
mad | 根据平均值计算平均绝对离差 |
var | 样本值方差 |
std | 样本值标准差 |
skew | 样本值的偏度(三阶矩) |
kurt | 样本值的峰度(四阶距) |
cumsum | 样本值的累计和 |
cummin,cummax | 样本值的累计最大值和累计最小值 |
cumprod | 样本值的累计积 |
dif | 计算一阶差分 |
pct_change | 计算百分数变化 |
3、相关系数与协方差
Series的corr方法用于计算两个Series中重叠的、非NA的、按索引对齐的值的相关系数。于此类似,cov方法用于计算协方差。
DataFrame的corr和cov方法将以DataFrane的形式返回完整的相关系数或协方差矩阵
利用DataFrame的corrwith方法,可以计算其列或者行跟另一个Series或者DataFrame之间的相关系数。传入一个Series会返回一个相关系数值(针对各列进行计算)
传入一个DataFrame则会计算按列名配对的相关系数