吴恩达机器学习系列(一)——引言及入门

1 前言

前几日回学校与实验室老师进行了短暂交流,研究生备考这两年实验室发生了好多变化,据老师说目前实验室差不多已经全部转型为人工智能实验室了,还起了个洋气的名字“π实验室”。
备考这两年,很多东西差不多都快断层了。想必研究生阶段应该也是要学习机器学习相关的理论知识了,想来先下手为强。据老师推荐,决定从斯坦福大学吴恩达老师的机器学习视频课入门。(老师对吴老师的这套课评价很高)

2 机器学习入门

2.1 吴恩达机器学习系列课程目录

根据视频,我对整套视频课的理论体系进行了简单的整理,以求一个清晰的理论目录。吴恩达机器学习系列(一)——引言及入门

2.2 机器学习分类

1 分类图示

吴恩达机器学习系列(一)——引言及入门

2 几个概念理解

  1. 机器学习
    将很多数据丢给计算机分析,以此来训练该计算机,培养计算机给数据分类的能力。换句话说,学习指的就是找到特征(数据的特征,例如一本书的内容)与标签(数据的标签,例如书所属的类别)的映射(mapping)关系。这样当有特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。
  2. 监督学习
    监督学习是指:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。换句话说,监督学习不仅把训练数据丢给计算机,而且还把分类的结果(数据具有的标签)也一并丢给计算机分析。
    计算机进行学习之后,再丢给它新的未知的数据,它也能计算出该数据导致各种结果的概率,给你一个最接近正确的结果。
  3. 无监督学习
    现实生活中常常会有这样的问题:缺乏足够的先验知识,因此难以人工标注类别或进行人工类别标注的成本太高。很自然地,我们希望计算机能代我们完成这些工作,或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。换句话说,无监督学习只给计算机训练数据,不给结果(标签),因此计算机无法准确地知道哪些数据具有哪些标签,只能凭借强大的计算能力分析数据的特征,从而得到一定的成果,通常是得到一些集合,集合内的数据在某些特征上相同或相似。
  4. 监督回归问题
    定量输出称为回归,或者说是连续变量预测。即根据给出的数据预测出一个准确的输出值。例如:房价预测问题
  5. 监督分类问题
    定性输出称为分类,或者说是离散变量预测。即根据给出的数据预测该数据所属类别。例如:肿瘤预测问题

3 参考材料

1 https://www.jianshu.com/p/33f3dda41554
2 https://baike.baidu.com/item/%E7%9B%91%E7%9D%A3%E5%AD%A6%E4%B9%A0
3 https://baike.baidu.com/item/%E6%97%A0%E7%9B%91%E7%9D%A3%E5%AD%A6%E4%B9%A0/810193