概率论与数理统计

《概率论与数理统计》

概率相关的模型:
贝叶斯模型:

1.每一个节点代表一个离散随机变量

2.每条射线代表一个条件概率表(为什么是表,因为节点所代表的随机变量的自变量取值可能为多个,每一个取值就是下一个节点的条件)

马尔科夫模型:

二者都使用概率图理论

概率论与数理统计

eg:知道了感冒发生,和现在为春天,等信息,求头痛的概率,具体计算很复杂,基于概率图模型........


dbn  hinton

deep belief network深度信念网

boltzman unit


conditional random field条件随机场

概率图 probabilistic graphical model

Alexnet VGG Inception Resnet  参数太多了 上亿参数,容易出现过拟合,


概率论与数理统计

过拟合的原因+处理方法 


缺失值

在许多实际问题的研究中,有一些数据无法获得或缺失。当缺失比例很小时,可直接对完全记录进行数据处理,舍弃缺失记录。 但在实际数据中,往往缺失数据占有相当的比重,尤其是多元数据。这时删除个案的处理将是低效率的,因为这样做丢失了大量信息,并且会产生偏倚,使不完全观测数据与完全观测数据间产生系统差异。

插补处理只是将未知值补以我们的主观估计值,不一定完全符合客观事实。以上的分析都是理论分析,对于缺失值由于它本身无法观测,也就不可能知道它的缺失所属类型,也就无从估计一个插补方法的插补效果。另外这些方法通用于各个领域,具有了普遍性,那么针对一个领域的专业的插补效果就不会很理想,正是因为这个原因,很多专业数据挖掘人员通过他们对行业的理解,手动对缺失值进行插补的效果反而可能比这些方法更好。缺失值的插补是在数据挖掘过程中为了不放弃大量的信息,而采用的人为干涉缺失值的情况,无论是那种处理方法都会影响变量间的相互关系,在对不完备信息进行补齐处理的同时,我们或多或少地改变了原始的数据的信息系统,对以后的分析存在潜在的影响,所以对缺失值的处理一定要慎重


数据预处理最重要的方法:归一化(batch normalization):平均值变为1,方差变为0(怎么变,变完后和以前的数据什么关系)

归一化是最重要的机器学习预处理部分 batch normalization

不过在把某个特征归一化之前,我们得先看该特征得方差,如果方差很小,则这个特征就没有什么研究价值

(eg:一个班的成绩都是100和99,则成绩这个特征就毫无价值,都很优秀,不能区别出学生之间的差异)

 scikit-learn中VarianceThreshold()就是检查每个特征的方差,可以给定一个值,如果方差小于它就说明这些特征没有价值,则抛弃该特征


随机试验

一、什么是试验

我们将对自然现象的一次观察或进行一次科学试验 称为试验。

二、什么是随机试验

(1) 可在相同的条件下重复试验; (2) 每次试验的结果不止一个,且能事先明确所有可能的结果; (3) 一次试验前不能确定会出现哪个结果。 满足以上条件的称为随机试验,记为E。

概率

        概率可列可加性:互斥的N个事件,p(aUbUcUd...) = p(a) + p(b) + ....


理解全概率公式与贝叶斯公式

独立事件和互斥事件

独立事件(彼此毫无关系,不在同一个样本空间,也无法在同一维度上画集合图)和互斥事件(互斥事件在同一个样本空间,我发生你就不能发生,)

独立性:独立事件虽然毫无关系,但是可以把他们联合起来组成一个新的样本空间,(即两个互相垂直样本空间,本来毫无关系,那么我就找一个三维的样本空间来将其联立起来..........

eg:样本空间A = {王宝强官司胜诉(p = 0.8),王宝强败诉(p = 0.2)} <A中的事件彼此互斥> 

     样本空间B = {明天去打球(p = 0.4),明天不打球( p = 0.6)}  <B中的事件彼此>

     处在两个样本空间(两个世界)中的事件可以组合成一个新的

     样本空间C = {宝胜诉打球(p = 0.8*0.4),宝胜诉不打球(p = 0.8*0.6),宝败诉打球(p = 0.2*0.4),宝败诉不打球(p = 0.2*0.6)}

    如此就把两个样本空间中的事情联立到了一起

随机变量

概率论与数理统计

离散型随机变量:连续性随机变量:在某个点的概率为0(eg:全国人的身高(连续),某个人的身高为1.7cm的概率为0)

概率论与数理统计

随机变量是为了用更加数字化,符号化的方式来研究概率和统计,更方便

概率论与数理统计

概率论与数理统计

随机变量的(概率)分布函数和概率密度函数

两个常用的连续性分布(其他的不常见)

  1. 均匀分布(random()产生的数符合均匀分布)
  2. 正态分布(公式得记忆并理解,面试常考)  <又叫高斯分布 《用于神经网络中随机选取一个符合正态分布或者均匀分布的值做参数传入函数》  

概率论与数理统计

概率论与数理统计