机器学习西瓜书之学习笔记(更新中)

评估方法

留出法 (hold-out)

  • 分层采样 (stratified sampling)

  • 2/3 ~ 4/5

    机器学习西瓜书之学习笔记(更新中)

交叉验证法 (cross validation)

  • k 折交叉验证 (k-fold cross validation) 划分k个子集,一般取 k = 10机器学习西瓜书之学习笔记(更新中)

留一法 (Leave-One-Out)

  • k = m,缺陷:m个模型的计算开销难以忍受

自助法 (bootstrapping)

  • 随机挑一个样本放入D’中,再放回D,重复m次,不被采集到数据的概率是36.8%
  • 这样的测试结果称为外包估计 (out-of-bag estimate)

limm(11m)m=1e0.368 \lim\limits_{m \to \infty} (1-\frac{1}{m})^m = \frac{1}{e}\approx0.368

性能度量 Performance Measure

  • 均方误差 (mean squared error)

E(f;D)=1mi=1m(f(xi)yi)2 E(f;D)=\frac{1}{m}\sum_{i=1}^m(f(x_i)-y_i)^2

更一般地,对于数据分布D和概率密度函数p(x),均方误差可描述为:

E(f;D)=xD(f(xi)yi)2p(x)dx E(f;D)=\begin{aligned} \int\limits_{x\sim D} (f(x_i)-y_i)^2 p(x) \mathrm{d} x \end{aligned}

  • 错误率 (error rate)
    E(f;D)=1mi=1mI(f(xi)yi) E(f;D)=\frac{1}{m}\sum_{i=1}^m\mathbb I(f(x_i)\neq y_i)

  • 精度 (accuracy)
    acc(f;D)=1mi=1mI(f(xi)=yi)=1E(f;D) acc(f;D)=\frac{1}{m}\sum_{i=1}^m\mathbb I(f(x_i)= y_i)\\ =1-E(f;D)

更一般地,对于数据分布D和概率密度函数p(x),错误率和精度可描述为
E(f;D)=xDI(f(x)y)p(x)dx E(f;D)=\begin{aligned} \int\limits_{x\sim D}\mathbb I (f(x)\neq y)p(x)\mathrm{d}x \end{aligned}

acc(f;D)=xDI(f(x)=y)p(x)dx=1E(f;D) acc(f;D)=\begin{aligned} \int\limits_{x\sim D}\mathbb I (f(x)= y)p(x)\mathrm{d}x \end{aligned}\\ =1-E(f;D)

  • 查准率 (precision)、查全率 (recall) 与 F1

    真实情况 预测结果
    正例 反例
    正例 TP(真正例) FN(假反例)
    反例 FP(假正例) TN(真反例)
    查准率 P: $$ P=\frac{TP}{TP+FP} $$ 查全率 R:

    R=TPTP+FN R=\frac{TP}{TP+FN}
    查准率和查全率往往是一对矛盾的度量。一般来说,查准率高时,查全率往往偏低;查全率高时,查准率往往偏低。

    • P-R曲线:

    机器学习西瓜书之学习笔记(更新中)

    • 平衡点 (Break-Even Point):查准率=查全率

    • F1度量:基于查准率和查全率的调和平均 (harmonic mean):
      F=21P+1R F=\frac{2}{\frac{1}{P }+\frac{1}{R}}

    • F1度量的一般形式:beta>0时度量了查全率对查准率的相对重要性
      Fβ=(1+β2)1P+β2R={F1if β=1if β>1if β<1 F_\beta=\frac{(1+\beta ^2)}{\frac{1}{P}+\frac{\beta ^2}{R}}= \begin{cases} F1 & \text{if } \beta = 1 \\ 对查全率更有影响 & \text{if } \beta > 1\\ 对查准率更有影响 & \text{if } \beta<1 \end{cases}

    • 在n个二分类混淆矩阵(confusion matrix)上综合考查查全率和查准率:

      • 在各混淆矩阵上计算P和R,再求平均值:

        宏查准率 (macro-P):
        macroP= macro-P=\sum
        宏查全率 (macro-R):