《深度学习》学习笔记 【第一章:引言】1.2.4 精度增强,复杂度和真实世界的影响

声明:仅用于自学。部分内容来自于网络,如有问题,请联系删除。

英文原文的官方网站,仅供参考:https://www.deeplearningbook.org/

第一章:引言

1.2.4 精度增强,复杂度和真实世界的影响

   自1980年代以来,深度学习在提供准确识别和预测方面的能力一直在不断提高。 此外,深度学习一直以来都成功地应用于越来越广泛的实际应用中。
   最早的深层模型用于识别紧密裁剪且非常小图像中的单个对象(鲁梅尔哈特等,1986a)。从那时起,神经网络可以处理的图像大小逐渐增加。现代物体识别网络处理丰富的高分辨率照片,并且不需要将照片裁剪在要识别的物体附近(克里热夫斯基等人,2012)。同样,最早的网络只能识别两种对象(或在某些情况下,不存在或存在一种对象),而这些现代网络通常可以识别至少1,000种不同的对象。物体识别方面最大的竞赛是每年举行的ImageNet大规模视觉识别挑战赛(ILSVRC)。当卷积网络第一次并以较大幅度获胜时,深度学习的高光时刻来了。这使得最高水平的前5名错误率从26.1%降低到15.3%(克里热夫斯基等,2012年),这意味着卷积网络会为每个图像的可能类别生成一个排名列表,除15.3%的测试样本外,正确的类别一定出现在该排名的前五个名之中。从那时起,这些竞赛一直由深层卷积网络赢得,并且截至撰写本文时,深度学习的进步已使本次竞赛中最新的前5名错误率降至3.6%,如图1.12所示。

《深度学习》学习笔记 【第一章:引言】1.2.4 精度增强,复杂度和真实世界的影响

图1.12:随时间推移,错误率降低。 自从深层网络达到了参加ImageNet大规模视觉识别挑战赛所需的规模以来,它们每年都在赢得竞争中始终如一,而每次产生的错误率也越来越低。 来自鲁萨科夫斯基等人(2014b)和He等人 (2015)的数据。

   深度学习对语音识别也产生了巨大影响。 经过1990年代的改善,语音识别的错误率从2000左右又开始停滞。而随着深度学习的引入(达尔等,2010; 丹吉特等,2010b; 赛德等,2011; 辛顿等,2012a) 语音识别导致错误率陡然下降,有些错误率甚至降低了一半。 我们将在第12.3节中更详细地探讨这一历史。
   深度网络在行人检测和图像分割方面也取得了令人瞩目的成功(塞尔曼尼特等,2013; 法拉贝特等,2013; 库普里等,2013),并在交通标志分类中产生了超越人类水平的表现(Ciresanet等,2012)。
同时,深层网络的规模和准确性都在增加,因此它们可以解决的任务的复杂性也随之增加。古德菲勒等(2014d)表明,神经网络可以学习输出描述图像转录的整个字符序列,而不仅仅是识别单个对象。 以前,人们普遍认为,这种学习需要标记序列中的各个元素(古塞尔和本吉奥,2013)。 如今,循环神经网络(例如上述LSTM序列模型)已用于对序列与其他序列之间的关系进行建模,而不仅仅是固定的输入。这种序列到序列的学习似乎正在掀起另一种应用的风潮:机器翻译(莎士科尔等人,2014; 巴赫达瑙等人,2015)。