5 easy stats 推断

  • descriptive statistics和inferential statistics
  • 是认知这个世界的两种手段
  • 把这个世界作为一个总体,谁也无法准确的知晓这个总体的特征,即准确测算这个总体的参数。
  • 现实中生活的人,可以通过大量的经验观察去推测未知世界的特征,通过收集能够掌握的数据和信息,对这个总体做一个推测性的判断,当然这种推测或判断是有概率保证的即是在一定可靠程度上做出的

  • 本章对简单统计推断的基本原理和内容,从如何估计总体的参数到对总体特征进行参数检验都将进行介绍,
  • python的 scipy、 statsmodels、 scikit-learn来实现统计推断的

5.1常用数据分析工具库

  • scipy、 statsmodels和 scikit-learn等是常用的数据分析工具

5.1.1 scipy

  • 用于科学计算
  • 在numpy基础上扩展了积分计算、求解微分方程、优化、信号处理和稀疏矩阵等方便用户使用的数理算法和函数
  • Scipy的主要功能模块
  • .cluster:矢量量化/K-均值
  • .constants:物理和数学常数

5 easy stats 推断

  • 本书仅针对其统计计算及建模等方面的.stats介绍
  • from scipy import stats

5. 1. 2 statsmodels

  • statsmodels(原名scikits.statsmodels)提供
    • 探素性数据分析、统计检验
    • 统计模型估计的类和函数。
  • 线性回归、广义线性、广义估计方程、稳健线性模型、
    • 线性混合效应模型、离散因变量回归、
    • 方差分析、时间序列分析、
    • 生存分析、统计检验、非参数检验、非参数计量、
    • 广义矩方法、经验似然法、计数模型、常用分布
  • 绘制拟合曲线图、盒须图、相关图、时间序列图形、因子图、马赛克图等用于探索性数据分析和模型构建诊断的常用图形
  • 0.5.0版之后的statsmodels可用R风格对pandas的Dataframe对象拟合模型
  • statsmodels可供进行科学计算和统计分析的模块非常多,每个模块下包含的方法或函数也极其繁杂。
  • 用statsmodels数据分析时,往往使用其数据分析接口(api)的方式来进行:

5 easy stats 推断

  • import statsmodels.api as sm

  • 建模和绘制相应图形的过程中对中文处理存在不兼容
  • 如果在用statsmodels对中文进行处理产生乱码,
    • 可先执行如下将有关信息重定位

5 easy stats 推断

5.1.3 sklearn

  • 全称scikit-learn,实现机器学习
  • 建立在 numpy、 scipy和 matplotlib上(须事先安装有这3个模块)
  • 功能包括:广义线性模型、线性及二次判别、核岭回归、支持向量机、随机梯度下降 最近邻法、贝叶斯分类、决策树、特征提取、定序回归、聚类、异常值检测、密度估计 神经网络等监督和半监督及无监督学习方法、模型选择和诊断方法、
  • 及数据挖掘过程中的预处理方法
  • 还内置经典机器学习数据集,
    • iris、 digit等用于分类,
    • boston house prices等用于回归

  • 调用具体机器学习算法时,“ from sklearn import模块名”
  • from sklearn import svm
  • #调用支持向量机进行分类

5.2简单统计推断的基本原理

  • 介绍总体参数推断的内容,
  • 首先从了解数据的分布特征
    • 及总体参数和样本量统计量之间的对应关系

5.2.1数据分布

  • 本章为简单实用起见,同时也为本章统计推断的内容做铺垫,只介绍按研究对象进行划分的数据分布,即总体分布、样本分布和抽样分布。

5.2.1.1总体分布

  • 已知总体往往是一个具有确定分布的随机变量
    • 总体分布就是所有数据的分布
    • 未知总体由于总体分布的参数无从知晓,对其特征推断则属于非参数统计推断的内容(见第7章)
  • 总体分布具体指总体所有变量值的分布状况,即总体变量值分布状况的一种概括
  • 新生儿的性别,把所有新生儿的性别一个不落都收集到,
    • 男、女二者必居其一,属两点分布
  • 全世界所有人身高可假定服从正态

  • 现实中总体的每一个观测值(即个体)几乎不可能都能够获得。
  • 因此有必要对总体的特征推断。
  • 总体分布往往是未知的,总体的特征往往也是未知的。
  • 通常假定总体服从一个特定的分布,在这个假定下去进行统计分析。
  • 总体的特征也叫做总体参数,由于不能够完全获得总体数据,所以总体参数往往是未知的,但总体参数是唯一确定的,当总体一旦确定,总体参数就自然而然确定了

  • 如不能完全获得所有总体数据则不能够直接计算总体参数,
    • 总体的特征只能通过样本数据推断

5.2.1.2样本分布

  • 总体数据很难获得,可从总体中抽取出若*分的个体进行调查和数据搜集
  • 从总体中抽取一个容量为n的样本,这些样本观测值是有差异的,
    • 并形成一个样本分布,即样本中各观察值的分布

  • 样本总是在一定总体中抽取的,
    • 其中包含总体的一些信息,
    • 所以也称经验分布:
      • 随着样本量的增大,样本的分布会逐渐接近于总体分布

  • 样本数据很容易获得,但同一个总体可以抽取出若干个不同的样本。因此,样本之间有差异,这种差异是随机的,可以通过标准误差来衡量。
  • 通常可通过样本统计量和样本分布来对总体推断。

  • python能根据所获得的数据计算样本统计量,
    • 并描绘样本分布的状况。