第一周 机器学习(ML)策略(1):1.11 超过人的表现

转载http://www.shareblogs.top/2061/

目录

第一章、简介

第二章、超过人的表现

2.1、案例1说明超越人类水平的进展会很慢

2.2、案例2说明超越人类水平的进展会很慢

2.3、学习算法超越人类水平的几个典型应用:点击广告 、产品建议、物流预测、偿还贷款等

2.4、 从结构化数据(比如数据库) 中学习的算法性能容易比人类水平高

2.5、小结


第一章、简介

 

  • 本文基于吴恩达人工智能课程做学习笔记、并融入自己的见解(若打不开请复制到浏览器中打开)https://study.163.com/courses-search?keyword=吴恩达
  • 本文第二章将介绍 超过人的表现,即介绍学习算法如何超越人类水平。

第二章、超过人的表现

 

2.1、案例1说明超越人类水平的进展会很慢

 

  • 很多团队会因为机器在特定的识别分类任务中,超越了人类水平而激动不已
  • 我们谈谈这些情况,看看你们自己能不能达到超越人类水平。
  • 我们讨论过机器学习的进展,会在接近或者超越人类水平的时候变得越来越慢,我们举例谈谈为什么会这样,如图2-1场景A所示。
  • 假设你有一个问题,这个问题经过一组人类专家充分讨论/辩论之后达到 0.5% 的错误率,单个人类专家错误率是 1%,然后你训练出来的算法有 0.6% 的训练错误率 、0.8% 的开发错误率。
  • 在这种情况下,可避免偏差是多少?这个比较容易回答,0.5% 是你对贝叶斯错误率的估计,所以可避免偏差的估计是至少 0.1%(0.1% = 0.6% - 0.5%)。
  • 然后方差是 0.2%,和减少可避免偏差(0.1%)比较起来,减少方差(0.2%)可能空间更大。

 

第一周 机器学习(ML)策略(1):1.11 超过人的表现

 

2.2、案例2说明超越人类水平的进展会很慢

 

  • 但现在我们来看一个比较难的例子,如图2-1 的场景B所示,一个人类专家团和单个人类专家的表现 和以前一样,但你的算法可以得到 0.3% 训练错误率、还有 0.4% 开发错误率。
  • 现在,可避免偏差是什么呢?现在其实很难回答,事实上你的训练错误率是 0.3%,这是否意味着你过拟合了 0.2%(0.5% - 0.3%)?或者说贝叶斯错误率其实是 0.1% 呢?或者也许贝叶斯错误率是 0.2%,或者贝叶斯错误率是 0.3% 呢?
  • 你真的不知道可避免偏差到底是多少,但是基于本例中给出的信息,你实际上没有足够的信息来判断优化你的算法时应该专注减少偏差还是减少方差。
  • 这样你取得进展的效率就会降低,还有比如说如果你的错误率已经比一群充分讨论辩论后的人类专家更低,那么依靠人类直觉去判断你的算法还能往什么方向优化就很难了。
  • 所以在图2-1 的场景B,一旦你超过这个 0.5% 的门槛,要进一步优化你的机器学习问题,就没有明确的选项和前进的方向了。
  • 这并不意味着你不能取得进展,你仍然可以取得重大进展,但现有的一些工具难以继续帮助你优化算法了。

 

2.3、学习算法超越人类水平的几个典型应用:点击广告产品建议物流预测偿还贷款

 

  • 现在机器学习有很多学习算法的应用,已经可以大大超越人类水平了。
  • 例如,网络广告估计某个用户点击广告的可能性,也许现在的学习算法做到的水平已经超越任何人类了。
  • 还有提出产品建议,向你推荐电影或书籍之类的任务,我想今天的网站做到的水平,已经超越你最亲近的朋友了。
  • 还有物流预测,从A到B开车需要多久,或者预测快递车从 A 开到 B 需要多少时间。
  • 或者预测某人会不会偿还贷款,这样你就能判断是否批准这人的贷款。
  • 我想这些问题都是今天的机器学习远远超过了单个人类的表现。

 

2.4、 从结构化数据(比如数据库) 中学习的算法性能容易比人类水平高

  • 请注意这四个例子,所有这四个例子都是从结构化数据中学习得来的,这里你可能有个数据库记录用户点击的历史、你的购物历史数据库,或者从 A 到 B需要多长时间的数据库,以前的贷款申请及结果的数据库。
  • 点击广告/产品建议/物流预测/偿还贷款这些并不是自然感知问题,这些不是计算机视觉问题,或语音识别 或自然语言处理任务。
  • 人类在自然感知任务中往往表现非常好,所以有可能对计算机来说,在自然感知任务的表现要超越人类要更难一些。
  • 最后这些问题中,机器学习团队都可以访问大量数据,所以比如说那四个应用中最好的系统看到的数据量,可能比任何人类能看到的都多。
  • 所以这样就相对容易得到超越人类水平的系统,现在计算机可以检索那么多数据,它可以比人类更敏锐地识别出数据中的统计规律。

 

2.5、小结

  • 除了这些问题,今天已经有语音识别系统超越人类水平了,还有一些计算机视觉任务,一些图像识别任务,计算机已经超越了人类水平。
  • 但是由于人类对这种自然感知任务非常擅长,我想计算机达到那种水平要难得多。
  • 还有一些医疗方面的任务,比如阅读ECG或诊断皮肤癌,或者某些特定领域的放射科读图任务,这些任务计算机做得非常好了,也许超越了单个人类的水平。
  • 在深度学习的最新进展中,其中一个振奋人心的方面是即使在自然感知任务中,在某些情况下计算机已经可以超越人类的水平了。不过现在肯定更加困难,因为人类一般很擅长这种自然感知任务。
  • 所以要达到超越人类的表现往往不容易,但如果有足够多的数据加上目前一些学习系统,在单一监督学习问题上已经超越了人类的水平。
  • 所以这对你在开发的应用是有意义的,我希望有一天你也能够搭建出超越人类水平的深度学习系统。