【转载】数据挖掘中所需的概率论与数理统计知识
【转载】数据挖掘中所需的概率论与数理统计知识
(关键词:微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布) https://blog.****.net/zbj366112/article/details/62221293?locationNum=2&fps=1导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节(彻底颠覆以前读书时大学课本灌输给你的观念,一探正态分布之神秘芳踪,知晓其前后发明历史由来),相信,每一个学过概率论与数理统计的朋友都有必要了解数理统计学简史,因为,只有了解各个定理.公式的发明历史,演进历程.相关联系,才能更好的理解你眼前所见到的知识,才能更好的运用之。
5部分起承转合,彼此依托,层层递进。且在本文中,会出现诸多并不友好的大量各种公式,但基本的概念.定理是任何复杂问题的根基,所以,你我都有必要硬着头皮好好细细阅读。最后,本文若有任何问题或错误,恳请广大读者朋友们不吝批评指正,谢谢。
第一节、微积分的基本概念
开头前言说,微积分是概数统计基础,概数统计则是DM&ML之必修课”,是有一定根据的,包括后续数理统计当中,如正态分布的概率密度函数中用到了相关定积分的知识,包括最小二乘法问题的相关探讨求证都用到了求偏导数的等概念,这些都是跟微积分相关的知识。故咱们第一节先复习下微积分的相关基本概念。
事实上,古代数学中,单单无穷小、无穷大的概念就讨论了近200年,而后才由无限发展到极限的概念。
1.1、极限
极限又分为两部分:数列的极限和函数的极限。
1.1.1、数列的极限
定义 如果数列{xn}与常a 有下列关系:对于任意给定的正数e (不论它多么小), 总存在正整数N , 使得对于n >N 时的一切xn, 不等式 |xn-a |<e都成立, 则称常数a 是数列{xn}的极限, 或者称数列{xn}收敛于a , 记为或
也就是说,1.1.2、函数的极限
设函数f(x)在点x0的某一去心邻域内有定义. 如果存在常数A, 对于任意给定的正数e (不论它多么小), 总存在正数d, 使得当x满足不等式0<|x-x0|<d 时, 对应的函数值f(x)都满足不等式 |f(x)-A|<e , 那么常数A就叫做函数f(x)时的极限, 记为
也就是说,
几乎没有一门新的数学分支是某个人单独的成果,如笛卡儿和费马的解析几何不仅仅是他们两人研究的成果,而是若干数学思潮在16世纪和17世纪汇合的产物,是由许许多多的学者共同努力而成。
甚至微积分的发展也不是牛顿与莱布尼茨两人之功。在17世纪下半叶,数学史上出现了无穷小的概念,而后才发展到极限,到后来的微积分的提出。然就算牛顿和莱布尼茨提出了微积分,但微积分的概念尚模糊不清,在牛顿和莱布尼茨之后,后续经过一个多世纪的发展,诸多学者的努力,才真正清晰了微积分的概念。
也就是说,从无穷小到极限,再到微积分定义的真正确立,经历了几代人几个世纪的努力,而课本上所呈现的永远只是冰山一角。
1.2、导数
也可记为:,或。
1.3、微分
1.4、积分
1.5、偏导数
定义 设函数z = f(x,y)在点(x0,y0)的某一邻域内有定义,当y固定在y0而x在x0处有增量时,相应地函数有增量,
第二节、离散.连续.多维随机变量及其分布
2.1、几个基本概念点
(一)样本空间
定义:随机试验E的所有结果构成的集合称为E的 样本空间,记为S={e},称S中的元素e为样本点,一个元素的单点集称为基本事件.
(二)条件概率
- 条件概率就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。
- 联合概率表示两个事件共同发生的概率。A与B的联合概率表示为或者。
- 边缘概率是某个事件发生的概率。边缘概率是这样得到的:在联合概率中,把最终结果中不需要的那些事件合并成其事件的全概率而消失(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率)。这称为边缘化(marginalization)。A的边缘概率表示为P(A),B的边缘概率表示为P(B)。
(三)全概率公式和贝叶斯公式
通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。
- P(A)是A的先验概率或边缘概率。之所以称为”先验”是因為它不考虑任何B方面的因素。
- P(A|B)是已知B发生后A的条件概率(直白来讲,就是先有B而后=>才有A),也由于得自B的取值而被称作A的后验概率。
- P(B|A)是已知A发生后B的条件概率(直白来讲,就是先有A而后=>才有B),也由于得自A的取值而被称作B的后验概率。
- P(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant)。
根据条件概率的定义,在事件B发生的条件下事件A发生的概率是
同样地,在事件A发生的条件下事件B发生的概率
整理与合并这两个方程式,我们可以找到
这个引理有时称作概率乘法规则。上式两边同除以P(B),若P(B)是非零的,我们可以得到贝叶斯定理:
2.2、随机变量及其分布
2.2.1、何谓随机变量
何谓随机变量?即给定样本空间,其上的实值函数称为(实值)随机变量。
也就是说,随机变量分为离散型随机变量,和连续型随机变量,当要求随机变量的概率分布的时候,要分别处理之,如:
- 针对离散型随机变量而言,一般以加法的形式处理其概率和;
- 而针对连续型随机变量而言,一般以积分形式求其概率和。
再换言之,对离散随机变量用求和得全概率,对连续随机变量用积分得全概率。这点包括在第4节中相关期望.方差.协方差等概念会反复用到,望读者注意之。
2.2.2、离散型随机变量的定义
(一)(0-1)分布
(二)、二项分布
(三)、泊松分布(Poisson分布)
2.2.3、随机变量分布函数定义的引出
- 对于离散型随机变量而言,其所有可能的取值可以一一列举出来,
- 可对于非离散型随机变量,即连续型随机变量X而言,其所有可能的值则无法一一列举出来,
2.2.4、连续型随机变量及其概率密度
-
;
-
;
-
- 在上文第1.4节中,有此牛顿-莱布尼茨公式:如果函数F (x)是连续函数f(x)在区间[a, b]上的一个原函数, 则;
- 在上文2.2.3节,连续随机变量X 而言,对于任意实数a,b(a<b),有P{a<X<=b} = P{X <=b} - P{X <= a} = F(b) - F(a);
2.2.5、各种分布的比较
第三节、从数学期望、方差、协方差到中心极限定理
3.1、数学期望、方差、协方差
- 一个离散性随机变量的期望值(或数学期望、或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。换句话说,期望值是随机试验在同样的机会下重复多次的结果计算出的等同“期望”的平均值。
- 而对于一个连续型随机变量来说,如果X的概率分布存在一个相应的概率密度函数f(x),若积分绝对收敛,那么X 的期望值可以计算为: