机器学习笔记(一)——机器学习中学习类算法的评估、改进和设计方法

     logistic regression 、sigmoid 感知机和多层神经网络的函数表示以及梯度下降迭代相关公式不做书写,公式多写起来麻烦,网上也有。写一下网易云吴恩达机器学习****里算法评估、改进和设计模型方法

数据集划分:1) 训练与测试  7:3     2) 训练、验证与测试  :6:4:4

1. 评估方法: 

思想:欠拟合,高偏差;过拟合,高方差

1) d-error 曲线 (d:多项式次数, error: error(h(x),y) ,  Jcv: 验证级)

机器学习笔记(一)——机器学习中学习类算法的评估、改进和设计方法

结论:多项式次数过小,容易出现高偏差;次数过多,容易出现高方差

2) 机器学习笔记(一)——机器学习中学习类算法的评估、改进和设计方法-error 曲线 (机器学习笔记(一)——机器学习中学习类算法的评估、改进和设计方法:正则化参数, error: error(h(x),y) ,  Jcv: 验证级)

机器学习笔记(一)——机器学习中学习类算法的评估、改进和设计方法

结论:机器学习笔记(一)——机器学习中学习类算法的评估、改进和设计方法 越大,机器学习笔记(一)——机器学习中学习类算法的评估、改进和设计方法越小,越容易出现高方差; 机器学习笔记(一)——机器学习中学习类算法的评估、改进和设计方法 越大,约束力越低,越容易出现高偏差

3) learning curve(学习曲线,m,训练集样本数)

欠拟合

机器学习笔记(一)——机器学习中学习类算法的评估、改进和设计方法

结论:使用更多数据无帮助,训练误差和验证误差较接近,但误差都较高

过拟合

机器学习笔记(一)——机器学习中学习类算法的评估、改进和设计方法

结论:使用更多数据有帮助,训练误差和验证误差相差交大,训练误差低,而验证误差高

 

2. 改进方法: 

1) 更大的训练集:  高偏差

2)更少的特征:    高方差

3)更多的特征:    高偏差

4) 增加多项式特征:   高偏差

5)减小机器学习笔记(一)——机器学习中学习类算法的评估、改进和设计方法 :   高偏差

6)增大机器学习笔记(一)——机器学习中学习类算法的评估、改进和设计方法 :   高方差

 

3. 设计模型方法:

1)开始一个简单的模型,应用并测试在交叉验证集上

2)画出学习曲线,分析模型情况,确定下一步改进方法(加减特征等等)

3)具体分析:找出验证集上错分的数据样本,分析错分样本的特点,寻找可改进模型的线索

4)数值估计:评价算法(特定方向的评价方法,如PR曲线等)