《概率论与数理统计》

概率相关的模型:

贝叶斯模型：

1.每一个节点代表一个离散随机变量

2.每条射线代表一个条件概率表(为什么是表，因为节点所代表的随机变量的自变量取值可能为多个，每一个取值就是下一个节点的条件)

马尔科夫模型:

二者都使用概率图理论

eg:知道了感冒发生，和现在为春天，等信息，求头痛的概率，具体计算很复杂，基于概率图模型........

dbn hinton

deep belief network深度信念网

boltzman unit

conditional random field条件随机场

概率图 probabilistic graphical model

Alexnet VGG Inception Resnet 参数太多了上亿参数,容易出现过拟合，

过拟合的原因＋处理方法

离群点（孤立点、异常值）及其检测方法

数据缺失的原因

缺失值

在许多实际问题的研究中，有一些数据无法获得或缺失。当缺失比例很小时，可直接对完全记录进行数据处理，舍弃缺失记录。但在实际数据中，往往缺失数据占有相当的比重，尤其是多元数据。这时删除个案的处理将是低效率的，因为这样做丢失了大量信息，并且会产生偏倚，使不完全观测数据与完全观测数据间产生系统差异。

而插补处理只是将未知值补以我们的主观估计值，不一定完全符合客观事实。以上的分析都是理论分析，对于缺失值由于它本身无法观测，也就不可能知道它的缺失所属类型，也就无从估计一个插补方法的插补效果。另外这些方法通用于各个领域，具有了普遍性，那么针对一个领域的专业的插补效果就不会很理想，正是因为这个原因，很多专业数据挖掘人员通过他们对行业的理解，手动对缺失值进行插补的效果反而可能比这些方法更好。缺失值的插补是在数据挖掘过程中为了不放弃大量的信息，而采用的人为干涉缺失值的情况，无论是那种处理方法都会影响变量间的相互关系，在对不完备信息进行补齐处理的同时，我们或多或少地改变了原始的数据的信息系统，对以后的分析存在潜在的影响，所以对缺失值的处理一定要慎重

数据预处理最重要的方法:归一化(batch normalization)：平均值变为1，方差变为0(怎么变，变完后和以前的数据什么关系)

归一化是最重要的机器学习预处理部分 batch normalization

不过在把某个特征归一化之前，我们得先看该特征得方差，如果方差很小，则这个特征就没有什么研究价值

(eg：一个班的成绩都是100和99，则成绩这个特征就毫无价值，都很优秀,不能区别出学生之间的差异)

scikit-learn中VarianceThreshold()就是检查每个特征的方差，可以给定一个值，如果方差小于它就说明这些特征没有价值，则抛弃该特征

随机试验

一、什么是试验

我们将对自然现象的一次观察或进行一次科学试验称为试验。

二、什么是随机试验

(1) 可在相同的条件下重复试验; (2) 每次试验的结果不止一个,且能事先明确所有可能的结果; (3) 一次试验前不能确定会出现哪个结果。满足以上条件的称为随机试验，记为E。

概率

概率可列可加性：互斥的N个事件，p(aUbUcUd...) = p(a) + p(b) + ....

理解全概率公式与贝叶斯公式

独立事件和互斥事件

独立事件(彼此毫无关系，不在同一个样本空间，也无法在同一维度上画集合图)和互斥事件(互斥事件在同一个样本空间，我发生你就不能发生，)

独立性：独立事件虽然毫无关系，但是可以把他们联合起来组成一个新的样本空间，(即两个互相垂直样本空间，本来毫无关系，那么我就找一个三维的样本空间来将其联立起来..........

eg:样本空间A = {王宝强官司胜诉(p = 0.8)，王宝强败诉(p = 0.2)} <A中的事件彼此互斥>

样本空间B = {明天去打球(p = 0.4)，明天不打球( p = 0.6)} <B中的事件彼此>

处在两个样本空间(两个世界)中的事件可以组合成一个新的

样本空间C = {宝胜诉打球(p = 0.8*0.4),宝胜诉不打球(p = 0.8*0.6),宝败诉打球(p = 0.2*0.4),宝败诉不打球(p = 0.2*0.6)}

如此就把两个样本空间中的事情联立到了一起