大数据产业概述

数据生命周期中的环节

什么是数据？

数据是承载一定的信息的符号。

什么是信息？1

信息是用来消除随机不定性的东西。

数学基础：统计与分布

加和值

$\sum_{i = 0}^{n} X i$

平均值

$\bar{X} = \frac{\sum_{i = 0}^{n} X i}{n}$

标准差

$σ = \sqrt{\frac{1}{n} \sum_{i = 0}^{n} (X i - \bar{X})^{2}}$

加权平均

$\bar{X} = \frac{\sum_{i = 0}^{n} X i * f (X i)}{\sum_{i = 0}^{n} f (X i)}$

欧式距离

$d = \sqrt{\sum_{i = 0}^{n} (X i 1 - X i 2)^{2}}$

曼哈顿距离

$d = \sum_{i = 0}^{n} | X i 1 - X i 2 |$

同比和环比

同比：相邻大周期的相同小周期的比较。

环比：相邻小周期的比较。

抽样

抽样（Sampling）是一种非常好的了解大量样本空间分布情况的方法，样本越大则抽样带来的成本减少的收益就越明显。

抽样对象要更加具有代表性和分散性，这样才会体现出与整个样本空间更为相近的分布特点。

高斯分布

概率函数： $f (x) = \frac{1}{\sqrt{2 π} σ} e x p (- \frac{(x - μ)^{2}}{2 σ^{2}})$

X的分布：
（μ-σ , μ+σ）: 68.2%
（μ-2σ , μ+2σ）: 95.4%
（μ-3σ , μ+3σ）: 99.6%

泊松分布

概率密度函数： $P (X = k) = \frac{λ^{k}}{k!} e^{- λ}$

参数λ是单位时间（或单位面积）内随机事件的平均发生率。泊松分布适合于描述单位时间内随机事件发生的次数。

泊松分布适用的事件需要满足以下3个条件：
1. 这个事件是一个小概率事件。
2. 事件的每次发生是独立的不会相互影响。
3. 事件的概率是稳定的。

例子：

已知有一个书店，售卖许多图书，其中工具书销售一直较稳定且数量较少（概率较小的事件），
新华字典平均每周卖出4套。作为书店老板，新华字典应该备多少本为宜？

每周卖出的新华字典数量k满足λ为4的泊松分布：

表1：不同k值对应的累计概率

k值	概率	累积概率
1	7.33%	7.33%
2	14.7%	22.03%
3	19.5%	41.53%
4	19.5%	61.03%
5	15.6%	76.63%
6	10.4%	87.03%
7	5.95%	92.98%
8	2.98%	95.96%
9	1.32%	97.28%

图1：不同k值对应的概率散点图

在泊松分布的例子里，可以看到一个现象：就是k每增加1，在k小于λ的时候，累积函数的增加是很快的，而且每次增加的量比上一次增加的要多；而在k越过λ之后，虽然还在增加，但是每次增加的量比上一次增加的要少，然后越来越少。

伯努利分布

概率函数： $P (X = k) = C_{n}^{k} \cdot p^{k} (1 - p)^{n - k}$

指标

指标就是制定的标准，就是为了描述一些对象的状态而制定出来的标准。

指标的选择：
1. 数字化
2. 易衡量
3. 意义清晰
4. 周期适当
5. 尽量客观

信息论

信息的定义

首先引用最被大家广泛认可的一种科学性的信息定义——“信息是被消除的不确定性。”2

例子：

抛一枚硬币。假设不会出现硬币立在地面上的情况。
结果A说：“硬币落地后正面朝上。”
然后B说：“硬币落地后朝上的面不是反面。”

在我们不知道硬币落地的结果之前，正面朝上的反面朝上的可能性都是存在的，当A告诉我准确的信息之后，那么硬币反面朝上的结果就不存在了，这里“硬币落地后正面朝上”就是信息；而当随机不确定性被消除之后，再被告知的这些信息里就没有消除随机不确定性的因素了，如B说的“硬币落地后朝上的面不是反面”就不是信息。

但如果C说：“这枚硬币最后落在了桌子上”，那么它又是信息，因为它消除了其他的不确定性。

信息量

在信息论中，对信息量是有确定解释并且可以量化计算的，这里的信息量就是一种信息数量化度量的规则。

一段文字有多少信息的想法最早还是在1928年由哈特莱（R.V.L.Hartley）首先提出，他将信息数的对数定义为信息量。

若信源有m种信息，且每个信息是以相等可能产生的，则该信源的信息量可表示如下：

$I = l o g_{2} m$

如上面提到的抛硬币的例子，因为硬币落地有正面和反面两种可能性，所以m=2，信息量 $I = l o g_{2} 2 = 1$ 。极端情况是，只有一个可能值的时候信息量为0，也就是无须告知也知道结果，即便告知了结果，信息量也为0，如一般情况下硬币抛出后必然会落地，所以“硬币落地”这句话的信息量就是0。

在概率不等的情况下，事件出现的概率越小，信息量越大。
Xi表示一个发生的事件，Pi表示这个事件发生的先验概率，则这个事件的信息量为：

$H (X_{i}) = - l o g_{2} P_{i}$

还是上面提到的抛硬币的例子，假设硬币被动过手脚，正面朝上的概率为 $\frac{1}{8}$ ，反面朝上的概率为 $\frac{7}{8}$ ，则抛一次硬币之后，正面朝上的信息量为：

$H (X_{i}) = - l o g_{2} \frac{1}{8} = 3$

反面朝上的信息量为：

$H (X_{i}) = - l o g_{2} \frac{7}{8} = 0.193$

信息熵

信息熵是信息的杂乱程度的量化描述，公式如下：

$H (x) = - \sum_{i = 1}^{n} p (x_{i}) l o g_{2} P (x_{i})$

信息越确定，越单一，信息熵越小。
信息越不确定，越混乱，信息熵越大。

如上面抛硬币的例子中，

硬币还没有被动过手脚，两面朝上的概率都是 $\frac{1}{2}$ ：
信息熵为 $\frac{1}{2} \cdot - l o g_{2} \frac{1}{2} + \frac{1}{2} \cdot - l o g_{2} \frac{1}{2} = 1$
硬币已经被动过手脚，正面朝上的概率为 $\frac{1}{8}$ ，反面朝上的概率为 $\frac{7}{8}$ ：
信息熵为 $\frac{1}{8} \cdot - l o g_{2} \frac{1}{8} + \frac{7}{8} \cdot - l o g_{2} \frac{7}{8} = 0.544$

即知道第一种情况的信息比第二种情况的信息更有价值。

注：信息量和信息熵的单位都是比特（bit）。

注：在计算信息量或信息熵时，取10的对数lg，或自然常数e的对数ln都是可以的，但是在一次应用过程中，所有的信息量或信息熵都必须采用同一个底。

多维向量空间

一般来说，向量的每个维度之间是不相关的。应尽可能保证维度设置的“正交性”。

例如向量定义：

(姓名，姓，名，出生日期，年龄)

在本例中，“姓名”这个维度可以由“姓”和“名”这两个维度推出，“年龄”也可以由“出生日期”推出。所以说，这种记录方式存在冗余信息，其中一个字段发生变化时，与其相关的其他字段也需要做出变化，这对于保持数据一致性来说，维护成本显然会提高。

在具体场景中，冗余字段也有优点。

例如向量定义：

(用户ID，第一季度销费额，第二季度销费额，第三季度销费额，第四季度销费额，全年消费总额）

在这种情况下，如果没有“全年消费总额”这一字段，在统计所有用户一年的消费总额时需要将所有的值加起来，在业务反馈时增加了额外的计算量。

想了解更多关于大数据和机器学习：大数据与机器学习专栏

取自《通信的数学理论》，香农，1948。 ↩
哈特莱（R.V.L.Hartley），1928 ↩

大数据与机器学习 入门篇

大数据产业概述

数学基础：统计与分布

指标

信息论

信息的定义

信息量

信息熵

多维向量空间

相关推荐

大数据与机器学习入门篇