机器学习(数学知识)

*古人云:故不积跬步,无以致千里,不积小流,无以成江海。
每一步的成功都是由每一小步的努力构成,所以,勿忘记基础。*
《微积分》
泰勒公式是函数在某一个定点的展开公式。
机器学习(数学知识)
我们可以在其基础上,用其展开式结合上下限利用夹逼准则求极值,也可以用用梯度下降法求极值(即用F(x)的方向导数,沿着梯度方向求函数局部或者全局最小解),同时也可以根据牛顿法求平方根等等,其应用非常广泛。

gamma函数可以看作是阶乘的一个函数表达
机器学习(数学知识)

其递推的方程如下,所以在这里真心觉得当初发明gamma函数的人其实很牛逼,能用一个函数来表达阶乘的关系。
机器学习(数学知识)

还有凸函数,在规划中常常用到求解函数极值的问题,所以函数要求求极值的时候,经常需要函数或者方程是凸的,才能求解函数的极值问题,在凸函数中,所表现出来的关系是两点内任何一点的值,小于两端点之间连线所对应的值,所以我们这里可以看到其系数为正的,才能存在凸集。所以推广到矩阵当中,要求规划的最小min,则需要证明该矩阵是正定矩阵(顺序子式大于0,或者式对称阵(但协方差矩阵一般情况下一般是对称的,所以能求解函数最小解))
机器学习(数学知识)

《概率论》
谈到概率论,就不得不谈到贝叶斯定理了,我们传统方法是已知经过推结果,而贝叶斯是由结果推过程,他一定意义是颠覆我们的思维逻辑。
机器学习(数学知识)

这个方法跟最大似然法有点类似,传统是根据分布,推出变量的值,而最大似然则根据离散随机变量x,y满足独立同分布的条件下,推出一定的关系式,然后借由一定方法论求解函数参数的值。
机器学习(数学知识)

大数定理

我觉得大数定理应该从切比雪夫不等式开始说起,其证明过程如下,可以看作,x离散程度大小的概率跟其方差有关,离散概率越大,方程越大。
机器学习(数学知识)

推出切比雪夫大数定理
该项的定义是,随机变量相互独立,并满足独立同分布,取任N个随机变量,其随着n的大的逐步增大收敛于均值的概率趋近于1(这里y的一阶矩为u, y的二阶矩为sigma^2/n)带入切比雪夫不等式,则可证大数定理。
机器学习(数学知识)

所以,有这里可以看出,当一系列离散随机变量满足于独立同分布的条件,那么当数量比较大的时候,这些随机变量的均值一定收敛于总体的均值。

所以由切比雪夫大数定理可以类似得到伯努力大数定理(也即当试验次数较多,可以用事件的频率来表示事件的概率)
机器学习(数学知识)

中心极限定理

设随机变量X独立同分布,并且具有相同的期望和方差,那么随机变量和的标准化变量Yn的分布会收敛于正态分布
机器学习(数学知识)

所以就可以用正态分布对随机变量的和做理论分析和计算了。