大数据分析笔记 (2) - 数据分析统计方法

属性类型

  • Nominal 定类变量, 代表区分于其他值的标签的值,没有序次关系,比如邮编,国家,员工ID。(能进行等同或不等同操作)
  • Ordinal 定序变量,蕴含了顺序的属性,比如学科成绩,地震等级等。(能进行等同或不等同,比较大小的操作)
  • Interval 定距变量,两个值之间的间距是有意义的,如日期,经纬度。(能进行等同或不等同,比较大小和加减的操作)
  • Ratio 定比变量,两个值之间的差别和比率是有意义的,既有测量单位也有绝对零点,比如年龄,开尔文温度,长度,宽度。(能进行等同或不等同,比较大小和加减乘除的操作)

探索性数据分析 (Exploratory Data Analysis)

检测数据中的模式和异常

  • 通过可视化探索性数据分析
  • 可视化提供简洁 (succinct),整体 (holistic) 的视图
  • 可视化是初始数据探索中的重要方面

下图的四个数据集(安斯库姆四重奏 - Anscombe’s quartet)拥有同样的均值和方差,在可视化之前我们是不知道数据的分布的。
大数据分析笔记 (2) - 数据分析统计方法

还能在可视化中检测到脏数据(Dirty Data):

  • 查找异常 (anomalies),使用 领域知识 进行验证。
  • 适当清理数据(clean the data)。

可视化单个变量

点图和条形图可以从离散变量中绘制带标签的连续值。直方图和对数密度图也可以用于可视化单个变量。如果数据有倾斜,查看数据的对数(如果它们全都是正值) 可以帮助发现在常规的非对数图中可能会被忽视的数据特征。
在准备数据时应该留意任何脏数据的迹象。检查数据是单峰或多峰可以了解在整体人口中有多少种不同行为模式的人群。

研究多个变量

散点图可以用于寻找多个变量之间的关系。当检查一个散点图时,需要密切关注变量之间可能的关系,如果变量之间的函数关系比较明显,数据就可能被描画成一条直线,一条抛物线或者一条指数曲线。如果散点图看起来没有什么特征,那么变量间可能只存在弱关联了。
点图和条形图也可以可视化多个变量。
箱线图(box-and-whisker plot)。
大数据分析笔记 (2) - 数据分析统计方法

适合用于大型数据集的蜂巢图(hexbinplot)
大数据分析笔记 (2) - 数据分析统计方法
散点图矩阵(scatterplot matrix)。
大数据分析笔记 (2) - 数据分析统计方法

对比数据探索(data exploration)和数据演示(data presentation)

数据科学家希望能看到数据细节,因为这样能够帮助了解数据的构成和数据间的关系。而利益相关者则更喜欢通过简单和清晰的图片来获取数据传达的信息而非数据本身。
比如数据科学家偏爱密度图而利益相关者更容易理解直方图。
大数据分析笔记 (2) - 数据分析统计方法

用于评估的统计方法

假设检验

设立一个断言(assertion)并将其测试于数据中。
在进行假设检验时,通常假设两个样本之间没有统计学上的显著差异。这是测试或者科学实验时的默认假设,统计学家称之为 原假设(null hypothesis - H0)。
备择假设 (alternative pypothesis - Ha) 则认为两个样本之间通常存在差异。
以下是例子:
大数据分析笔记 (2) - 数据分析统计方法
在验证之前形成假设,它可以定义期望。

  • 明确说明原假设和备择假设。
  • 要么拒绝零假设以支持替代方案,要么不拒绝零假设。

均值差异 (常见的假设检验)

  • 用来决定两个群体是否彼此不同。
  • 根据采样数据比较其均值。
    基本的校验方法是比较两个群体对应的抽样均值X1和X2。如果X1和X2的值大致相等,则X1和X2的分布基本重叠,原假设成立。如果抽样均值之间有很大的差异,则表明应该否定原假设。

学生t检验 (Student’s t-test)

学生t检验假设两个群体的分布具有相等但未知的方差。并且假设每个群体都是正态分布的。此时,T (t-statistic)遵循*度 (degree of freedom,df) 为 (n1 + n2 - 2)的 t 分布。T距离零越远,以至于不可能观测到这样一个T值,群体之间的差异就越大。如果T过大,则将拒绝原假设。
大数据分析笔记 (2) - 数据分析统计方法

根据公式显示,均值的差越大,则T越大。当群体的方差越大,则T越小。

检验的显著性水平(significance level - α): 当原假设实际上为TRUE时,原假设被拒绝的可能性。
(通常α = 0.05)

对于一个小概率,比如α=0.05,寻找 T* 的取值使得 P(|T| ≥ T*) = 0.05。在抽样和根据公式计算出观测值之后,如果 |T| ≥ T*,则原假设 (μ1 = μ2)会被否定。

考虑 μ1 > μ2 和 μ1 < μ2 这两种情况的概率的情况的学生t检验被称为 双边假设检验 (two-sided hypothesis test),并且两个t分布尾部概率之和应该等于显著性水平。(大部分情况下,0.05) 人们习惯在两个尾部之间均匀地划分显著性水平。(0.05 / 2 = 0.025)

−t 和 t 都是 t 统计的观测值。
p值 (p-value): 是P(T <= -t) 和 P(T >= t) 地总和。 如果原假设为TRUE, 则p值提供了观察到 |T| >= t 的可能性。一般情况下,p 值代表的是一个抽样结果导致原假设成立的概率。
因此当p-value < 显著性水平时,原假设可以被拒绝。反之则成立。

置信度 (confidence level)是基于样本数据的总体参数的区间估计(interval estimate)。

Welch’s t-test

  • 当不存在相等的总体方差假设时应该使用该方法。
  • 它使用每个总体的样本方差,而不是合并的样本方差。
  • 仍假设两个总体均值均相同。
    大数据分析笔记 (2) - 数据分析统计方法

Wilcoxon秩和检验

Wilcoxon Rank-Sum Test: 如果两个总体都非正态分布时。
Parametric Test: 假设从中抽取样本的总体样本。
Nonparametric Test: 如果不能假设(或变换)总体为正态分布时,则应使用。
使用非参数检验以检查两个总体是否均匀分布(Identically distributed)。使用次序代替数值结果,以避免对分布形状的特定假设。

如何进行检验:

  1. 对两个总体进行排序,就好像它们来自一个大的总体一样。
  2. 为至少一个群体样本的观测值的次序进行求和。
  3. 确定观测值秩和的显著性(significance of the rank-sums)。

Ⅰ型和Ⅱ型错误

Ⅰ型错误 (Type Ⅰ Errors):是指当原假设成立时,否定了原假设。
Ⅱ型错误 (Type Ⅱ Errors):是指当原假设不成立时,接受了原假设。

检验的功效(power of a test)是指正确地拒绝 (correctly rejecting) 原假设的概率。它可以表示为 1 - β,其中β 是 II 型错误的概率。

ANOVA

ANOVA: 方差分析 Analysis of Variance
ANOVA测试是否有任何群体的均值不同于其他群体的均值。
原假设:所有群体的均值相等。
备择假设:至少一对群体均值不相等。

计算F检验统计量(F-test statistic):
组间均值平方和 (Between-groups mean sum of squares):可以衡量群体均值如何随总均值变化。
大数据分析笔记 (2) - 数据分析统计方法
组内均值平方和 (Within-groups mean sum of squares):可以量化值在群体内的分布。
大数据分析笔记 (2) - 数据分析统计方法
F检验统计被定义为组间均值平方和与组内均值平方和的比值:被用于衡量每个组内的均值与变异数(variability)的不同。观测到的F检验统计越大,均值间的差异也就越大(非偶然因素导致)。
大数据分析笔记 (2) - 数据分析统计方法