机器学习基础

机器学习

author:Allen Zhang
November 8, 2018 8:15 PM

0x00 机器学习概述

机器学习一般思路

机器学习包含训练数据集、测试数据集、得分函数、损失函数(得分与目标结果对比)

机器学习的核心思路

损失函数的最优化问题(最小值)
机器学习基础

名词解释

  • 训练数据集

训练数据集一般形式为特征1…n,标签为已知

  • 测试数据集

测试数据集一般形式为特征1…n,标签为未知

机器学习形式分类

  • 监督学习

根据训练数据集学习出一个函数,从而可以预测测试数据结果。
算法举例:分类,线性回归

  • 无监督学习

又称作归纳性学习。
在未加标签的数据集中,找到数据隐藏的结构关系。
算法举例:聚类

机器学习算法一览

机器学习基础

0x01 数学基础

微积分基础

梯度

  • 设函数z=f(x,y)z=f(x,y)在平面区域DD内具有一阶连续偏导数,则对于每一个点P(x,y)DP(x,y)\in D
    向量:
    (fx,fy) \left ( \frac{\partial f}{\partial x},\frac{\partial f}{\partial y} \right )

为函数z=f(x,y)z=f(x,y)在点PP的梯度,记做gradf(x,y)gradf(x,y)

  • 梯度的方向是函数在该点变化最快的方向

    想象一座解析式为z=H(x,y)z=H(x,y)的山,在(x0,y0)(x_0,y_0)的梯度是在该点坡度变化最快的方向。
    梯度是一个向量 。

凸函数

  • 定义:

    若函数ff的定义域domfdomf为凸集,且满足xydomf0θ1\forall x,y \in domf,0\le\theta\le1,有f(θx+(1θ)y)θf(x)+(1θ)f(y)f(\theta x+(1-\theta)y)\le\theta f(x)+(1-\theta)f(y)

    琴生不等式:
    机器学习基础

  • 凸函数的判定

定理:f(x)f(x)在区间[a,b][a,b]上连续,在(a,b)(a,b)内二阶可导,那么:
+ 若f(x)>0f''(x)>0,则f(x)f(x)是凸的
+ 若f(x)<0f''(x)<0,则f(x)f(x)是凹的

即:一元二阶可微的函数在区间上是凸的,当且仅当它的二阶导数是非负的。

概率统计基础

概率公式

  • 条件概率公式

P(AB)=P(AB)P(B) P(A|B)=\frac{P(AB)}{P(B)}

  • 全概率公式

P(A)=iP(ABi)P(Bi) P(A)=\sum_iP(A|B_i)P(B_i)

  • 贝叶斯(Bayes)公式

P(BiA)=P(ABi)P(Bi)jP(ABj)P(Bj) P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_jP(A|B_j)P(B_j)}

常见概率分布

分布 参数 数学期望 方差
两点分布 0<p<10\lt p\lt1 pp p(1p)p(1-p)
二项分布 n1,0<p<1n\ge1,\\0\lt p\lt1 npnp np(1p)np(1-p)
泊松分布 λ>0\lambda\gt0 λ\lambda λ\lambda
均匀分布 a<ba\lt b (a+b)/2(a+b)/2 (ba)2/12(b-a)^2/12
指数分布 θ>0\theta\gt0 θ\theta θ2\theta^2
正态分布 μ,σ>0\mu,\sigma\gt0 μ\mu σ2\sigma^2

概率分布表

机器学习基础

概率与统计关注点

  • 根据是否已知整体进行区分

概率:已知整体求概率
机器学习基础
统计:已知样本求整体
机器学习基础

  • 统计问题是概率问题的****

概率统计与机器学习的关系

  • 利用统计求得整体的结果
  • 利用得出的结果预测未知数据概率
  • 可基于各个分布的特性来评估模型和算法
特征1
特征n
标签
特征1
特征n
标签
特征1
特征n
标签
分布x
分布Xn
分布Y
  • 统计估计的是分布,机器学习训练出来的是模型,模型可能包含了很多分布。
  • 训练与预测过程的一个核心评价指标就是模型的误差
  • 误差本身可以是概率的形式,与概率紧密相关。
  • 对误差的不同定义方式就演化成不同损失函数的定义方式。
  • 机器学习是概率与统计的进阶版本。(不严谨的说法)

重要统计量

  • 期望

    定义:概率加权下的“平均值”

    • 离散型
      E(x)=ixipiE(x)=\sum_i x_ip_i
    • 连续型
      E(x)=xf(x)dxE(x)=\int_{-\infty}^\infty xf(x)dx
  • 方差

    定义:
    $ Var(X)=E{[X-E(X)]2}=E(X2)-E^2(X) $
    方差的平方根称为标准差。
    性质:

    • 无条件成立
      Var(c)=0Var(X+c)=Var(X)Var(kX)=k2Var(X)Var(c)=0\\ Var(X+c)=Var(X)\\ Var(kX)=k^2Var(X)

    • XYX和Y独立
      Var(X+Y)=Var(X)+Var(Y)Var(X+Y)=Var(X)+Var(Y)

  • 协方差

    定义:
    Cov(X,Y)=E{[XE(X)][YE(Y)]} Cov(X,Y)=E\{ [X-E(X)] [Y-E(Y)] \}
    性质:
    Cov(X,Y)=Cov(Y,X)Cov(aX+b,cY+d)=acCov(X,Y)Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)Cov(X,Y)=E(XY)E(X)E(Y) Cov(X,Y)=Cov(Y,X)\\ Cov(aX+b,cY+d)=acCov(X,Y)\\ Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)\\ Cov(X,Y)=E(XY)-E(X)E(Y)
    一般用于评估样本特征与模型相关性。

  • 相关系数

    定义:
    简单相关系数:又叫相关系数或线性相关系数,一般用字母rr表示,用来度量两个变量间的线性关系。
    r(X,Y)=Cov(X,Y)Var(X)Var(Y)(r[1,1]) r(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}} (r\in[-1,1])