吴恩达-机器学习(6)

Evaluating a Learing Algorithm

Decidding what to try next

当预测新的数据集，效果很差时：
1. 获取更多的训练数据
2. 减小特征数量
3. 尝试获取附加特征
4. 尝试添加多项式特征
5. 尝试减小 $λ$
6. 尝试增加 $λ$

机器学习诊疗法：可以帮助你知道机器学习算法是否在工作,而且可以知道提高算法性能的最好的方法

Evaluating your hypothesis

将数据集按照7:3的比例分为训练集和测试集
吴恩达-机器学习(6)
线性回归

逻辑回归

Model selection and Train/Validation/Test Sets

模型选择,对每个多项式进行训练，选择测试机误差最小的模型，但这并不能评估模型在新的数据集中表现
吴恩达-机器学习(6)
将数据集分为6:2:2的三段，第一段为训练集，第二段为交叉验证集、第三段为测试集

选择交叉验证误差最小的模型，这就避免使用测试集

Bias vs Variance

Diagnosing bias vs variance

随着多项式的增加,训练集的误差逐渐减小，验证集的误差先减小后增大
高偏差（欠拟合）: $J_{t r a i n} (θ)$ 和 $J_{c v} (θ)$ 都很高，且 $J_{t r a i n} (θ) \approx J_{c v} (θ)$
高方差（过拟合）： $J_{t r a i n} (θ)$ 很小， $J_{c v} (θ)$ 比 $J_{t r a i n} (θ)$ 大很多
吴恩达-机器学习(6)

Regularization and Bias/Variance

吴恩达-机器学习(6)
选取模型和 $λ$ 的步骤：
1. 创建 $λ$ 的列表 (i.e. λ∈{0,0.01,0.02,0.04,0.08,0.16,0.32,0.64,1.28,2.56,5.12,10.24});
2. 创建一组具有不同次方或任何其他变体的模型
3. 遍历所有的 $λ$ 和模型学习参数
4. 计算交叉验证集上的 $J_{c v} (θ)$ (没有正则化)
5. 选择在交叉验证集中产生最低错误的最佳组合。
6. 使用最好的模型和 $λ$ ，在测试集上测试性能

吴恩达-机器学习(6)

Learning Curves

学习曲线是误差和训练集大小的曲线
吴恩达-机器学习(6)
高偏差时：
小的训练集导致 $J_{t r a i n} (θ)$ 很小 $J_{c v} (θ)$ 很高
大的训练集导致 $J_{t r a i n} (θ)$ 和 $J_{c v} (θ)$ 都很高且 $J_{t r a i n} (θ) \approx J_{c v} (θ)$
当学习算法是高偏差时,增大训练集并不能改善其性能
吴恩达-机器学习(6)
高方差时:
小的训练集导致 $J_{t r a i n} (θ)$ 很小 $J_{c v} (θ)$ 很高
随着训练集的增大 $J_{t r a i n} (θ)$ 增大 $J_{c v} (θ)$ 减小且都不会趋于平稳， $J_{t r a i n} (θ)$ < $J_{c v} (θ)$ 且差异很大

模型改善方法总结
吴恩达-机器学习(6)

Building a Spam Classifier

Prioritizing What to Work on

垃圾邮件分类：
给定一组电子邮件数据，我们可以为每个电子邮件构造一个向量。这个向量中的每个元素代表一个单词。向量通常包含10,000到50,000个条目，这是通过查找我们数据集中最常用的单词来收集。如果要在邮件中找到一个单词，我们将分配它各自的条目1，否则如果没有找到，这个条目就是0。一旦我们准备好所有的x向量，我们训练我们的算法，最后，我们可以用它来分类一个邮件是否是垃圾邮件。
吴恩达-机器学习(6)
如何提高分类器的准确性：
- 收集大量的数据，如‘honeypot’项目
- 寻找更加复杂的特性（例如：在垃圾邮件中使用电子邮件头数据）
- 从邮件内容中寻找复杂的特征
- 开发算法检测错误拼写