四、大数据推动机器学习的发展(Scale drives machine learning progress)

数十年前已经有了深度学习(神经网络)的研究和相关观点,为什么最近几年变得这么火?
深度学习最近得以快速发展的两个原因如下:

  • 大数据:现如今,电子设备(平板、智能手机)占用了人们更多的时间,这些电子设备产生的大量数据可以作为算法的输入。
  • 计算能力的提升:几年前,我们开始利用大规模的数据集去训练庞大的神经网络。
    实际上,即使随着数据集的增大,过去的一些学习算法(如,逻辑回归)也不会明显的提高准确度。

四、大数据推动机器学习的发展(Scale drives machine learning progress)

过去的一些学习算法不适用于处理今天如此庞大的数据集了。如果训练一个神经网络去实现相同的目标,神经网络的效果会更好一些:

四、大数据推动机器学习的发展(Scale drives machine learning progress)

这里的“Small NN”代表隐含单元、层、参数比较少的神经网络。当然,神经网络越复杂,效果越好。

四、大数据推动机器学习的发展(Scale drives machine learning progress)

因此,当你的数据量很大(i)的时候,训练一个非常大的神经网络,就会得到一个最好的效果(ii),如图所示绿色的曲线。

虽然很多其他的东西也很重要,比如最近得到很大发展的神经网络结构,但是提高算法效果的更可靠的方法还是训练一个(i)更大的神经网络或(ii)增大数据集。

实现(i)(ii)的过程出奇的复杂,这本书将会详细的讨论。我们将从对传统学习算法和神经网络都有用的一般方法开始,直到最新的构建深度学习系统的方法。