您的位置: 首页 > 文章 > 5 easy stats 推断

5 easy stats 推断

分类: 文章 • 2024-06-16 12:21:46

文章目录

5.1常用数据分析工具库

5.1.1 scipy
5. 1. 2 statsmodels
5.1.3 sklearn

5.2简单统计推断的基本原理

5.2.1数据分布

5.2.1.1总体分布
5.2.1.2样本分布

descriptive statistics和inferential statistics
是认知这个世界的两种手段
把这个世界作为一个总体,谁也无法准确的知晓这个总体的特征,即准确测算这个总体的参数。
现实中生活的人,可以通过大量的经验观察去推测未知世界的特征,通过收集能够掌握的数据和信息,对这个总体做一个推测性的判断,当然这种推测或判断是有概率保证的即是在一定可靠程度上做出的

本章对简单统计推断的基本原理和内容,从如何估计总体的参数到对总体特征进行参数检验都将进行介绍,
python的 scipy、 statsmodels、 scikit-learn来实现统计推断的

5.1常用数据分析工具库

scipy、 statsmodels和 scikit-learn等是常用的数据分析工具

5.1.1 scipy

用于科学计算
在numpy基础上扩展了积分计算、求解微分方程、优化、信号处理和稀疏矩阵等方便用户使用的数理算法和函数
Scipy的主要功能模块
.cluster:矢量量化/K-均值
.constants:物理和数学常数

5 easy stats 推断

本书仅针对其统计计算及建模等方面的.stats介绍
from scipy import stats

5. 1. 2 statsmodels

statsmodels(原名scikits.statsmodels)提供
- 探素性数据分析、统计检验
- 统计模型估计的类和函数。
线性回归、广义线性、广义估计方程、稳健线性模型、
- 线性混合效应模型、离散因变量回归、
- 方差分析、时间序列分析、
- 生存分析、统计检验、非参数检验、非参数计量、
- 广义矩方法、经验似然法、计数模型、常用分布
绘制拟合曲线图、盒须图、相关图、时间序列图形、因子图、马赛克图等用于探索性数据分析和模型构建诊断的常用图形
0.5.0版之后的statsmodels可用R风格对pandas的Dataframe对象拟合模型
statsmodels可供进行科学计算和统计分析的模块非常多,每个模块下包含的方法或函数也极其繁杂。
用statsmodels数据分析时,往往使用其数据分析接口(api)的方式来进行:

5 easy stats 推断

import statsmodels.api as sm

建模和绘制相应图形的过程中对中文处理存在不兼容
如果在用statsmodels对中文进行处理产生乱码,
- 可先执行如下将有关信息重定位

5 easy stats 推断

5.1.3 sklearn

全称scikit-learn,实现机器学习
建立在 numpy、 scipy和 matplotlib上(须事先安装有这3个模块)
功能包括:广义线性模型、线性及二次判别、核岭回归、支持向量机、随机梯度下降最近邻法、贝叶斯分类、决策树、特征提取、定序回归、聚类、异常值检测、密度估计神经网络等监督和半监督及无监督学习方法、模型选择和诊断方法、
及数据挖掘过程中的预处理方法
还内置经典机器学习数据集,
- iris、 digit等用于分类,
- boston house prices等用于回归

调用具体机器学习算法时,“ from sklearn import模块名”
from sklearn import svm
#调用支持向量机进行分类

5.2简单统计推断的基本原理

介绍总体参数推断的内容,
首先从了解数据的分布特征
- 及总体参数和样本量统计量之间的对应关系

5.2.1数据分布

本章为简单实用起见,同时也为本章统计推断的内容做铺垫,只介绍按研究对象进行划分的数据分布,即总体分布、样本分布和抽样分布。

5.2.1.1总体分布

已知总体往往是一个具有确定分布的随机变量
- 总体分布就是所有数据的分布
- 未知总体由于总体分布的参数无从知晓,对其特征推断则属于非参数统计推断的内容(见第7章)
总体分布具体指总体所有变量值的分布状况,即总体变量值分布状况的一种概括
新生儿的性别,把所有新生儿的性别一个不落都收集到,
- 男、女二者必居其一,属两点分布
全世界所有人身高可假定服从正态

现实中总体的每一个观测值(即个体)几乎不可能都能够获得。
因此有必要对总体的特征推断。
总体分布往往是未知的,总体的特征往往也是未知的。
通常假定总体服从一个特定的分布,在这个假定下去进行统计分析。
总体的特征也叫做总体参数,由于不能够完全获得总体数据,所以总体参数往往是未知的,但总体参数是唯一确定的,当总体一旦确定,总体参数就自然而然确定了

如不能完全获得所有总体数据则不能够直接计算总体参数,
- 总体的特征只能通过样本数据推断

5.2.1.2样本分布

总体数据很难获得,可从总体中抽取出若*分的个体进行调查和数据搜集
从总体中抽取一个容量为n的样本,这些样本观测值是有差异的,
- 并形成一个样本分布,即样本中各观察值的分布

样本总是在一定总体中抽取的,
- 其中包含总体的一些信息,
- 所以也称经验分布:
  - 随着样本量的增大,样本的分布会逐渐接近于总体分布

样本数据很容易获得,但同一个总体可以抽取出若干个不同的样本。因此,样本之间有差异,这种差异是随机的,可以通过标准误差来衡量。
通常可通过样本统计量和样本分布来对总体推断。

python能根据所获得的数据计算样本统计量,
- 并描绘样本分布的状况。