不可不看系列！一年前，现代机器学习最重要的一篇论文诞生了

全文共2263字，预计学习时长8分钟

图源：unsplash

在现实应用中，训练机器学习模型是数据科学解决方案里最具挑战性和计算成本最高的方面之一。几十年来，人工智能界在单一的公理假设下发展出了数百种技术，以改进机器学习模型的训练，即训练应该覆盖整个模型。

事实上，我们不常能看到挑战机器学习核心原则基础的新研究想法。一年前，麻省理工学院研究人员发表了关于**假设(Lottery Ticket Hypothesis)的论文，提出了一种更智能、更简单的方法，通过关注模型的子集来训练神经网络。这可谓是人工智能界的大新闻。

在机器学习模型的训练过程中，数据科学家经常在理论与现实世界解决方案约束下的妥协。通常，对于一个特定的问题，一个似乎很理想的神经网络架构并不能完全实现，训练成本就是最大的阻碍。

神经网络的初始训练需要大量的数据集和昂贵的计算时间成本，是为了得到一个非常大的神经网络结构，且神经网络和隐藏层之间有联系。这种结构通常需要通过优化技术来移除一些连接，并调整模型的大小。

不可不看系列！一年前，现代机器学习最重要的一篇论文诞生了

图源：medium

有一个问题困扰了人工智能研究人员几十年，是否真的需要从那些大型神经网络结构开始？显然，如果将一个架构中几乎每个神经元都连接起来，很可能会得到一个能执行初始任务的模型，但成本太高了。

不能从更小、更精简的神经网络架构开始吗？这就是**假设的本质。

用博彩界的一个类比，机器学习模型的训练通常被比作通过购买每一张可能中奖的**来中奖。如果知道会中奖的**是什么样子的，选择**时是否可以更明智？

在机器学习模型中，训练过程产生了大型神经网络结构，相当于一大袋**。在初始训练之后，模型需要进行优化技术，例如剪枝，去除网络中不必要的权重，以便在不牺牲性能的情况下减小模型。

这相当于在包里寻找中奖的**，然后把剩下的扔掉。通常，剪枝技术最终会产生比原来小90%的神经网络结构。

问题显而易见：如果一个网络的规模可以缩小，为什么不训练这个更小的架构，让训练更有效？矛盾在于，机器学习解决方案的实践经验表明，剪枝所揭示的体系结构从一开始就很难训练，得到的准确度也低于原始网络。

不可不看系列！一年前，现代机器学习最重要的一篇论文诞生了

图源：unsplash

所以，我们可以买一大袋的票，然后用自己的方式去获得中奖号码，但是相反的过程太难了。

麻省理工学院**假设背后的主要思想是，一个大的神经网络将始终包含一个较小的子网络，如果从一开始就进行训练，它将获得与较大结构相似的准确度。具体而言，研究报告概述了以下假设：

**假设：一个随机初始化的密集神经网络包含一个初始化的子网络，当在隔离状态下训练时，经过最多相同迭代次数的训练，它可以匹配原始网络的测试准确度。

在论文中，较小的子网络通常被称为“中奖的**”。考虑一个 f(t, a, p)形式的神经网络，其中t=训练时间，a=准确度，p=参数。现在假设s是所有来自原始结构，剪枝过程生成的，可训练神经网络的子集。

**假设告诉我们，在t’<= t, a’>= a 且p’<= p的情况下，存在一个f’(t’, a’, p’) €。简言之，传统的剪枝技术揭示了一个比原来的神经网络结构更小、训练更简单的神经网络结构。

不可不看系列！一年前，现代机器学习最重要的一篇论文诞生了

如果**假设是真的，那么下一个明显的问题就是找到中奖**的策略。这一过程包括一个智能训练和修剪的迭代过程，可概括为以下五个步骤：

1. 随机初始化一个神经网络。

2. 训练神经网络，直至其收敛。

3. 对网络的一小部分进行剪枝。

4. 提取中奖**，将网络剩余部分的权重重置为步骤1中的值，即在训练开始前的初始值。

5. 评估在步骤4中产生的网络是否确实是一张中奖票，训练经过剪枝但未经训练的网络，并检查其收敛行为和准确性。

这个进程可以一次或多次运行。在一次性的剪枝方法中，网络只被训练了一次，剪枝p%的权重，并重置存活权重。

虽然一次性的剪枝肯定是有效的，但是**假设论文显示，当该过程在n轮上迭代应用时，效果最好；每轮剪枝前一轮存活权重的1/n%。一次性的剪枝往往产生非常坚实的结果，而不需要计算上成本昂贵的训练。

不可不看系列！一年前，现代机器学习最重要的一篇论文诞生了

MIT的团队在一组神经网络架构中测试**假设，结果显示剪枝方法不仅能够找到优化架构的方法，而且能够找到中奖**。

中奖的**，在没有广域网剩余冗余的情况下，要比广域网训练速度更快。事实上，只要广域网越精简，训练就越快（在合理范围内）。但是如果随机（控制）重新初始化网络的权重，则现在生成的网络训练速度比完整网络慢。

因此，剪枝不仅仅是为了找到正确的架构，它还涉及到识别“中奖票”，这是网络中一个特别幸运的初始化子组件。

基于实验结果，麻省理工学院的研究小组扩展了最初的假设，称之为**猜想(Lottery System Conjecture)，其内容如下：

“回到动机问题，我们将假设扩展为一个未经验证的猜想，即SGD寻找并训练一个初始化良好的权重子集。密集的、随机初始化的网络比稀疏的网络更容易训练，稀疏的网络是由剪枝产生的，因为有更多可能的子网络，训练可以从中收回一张中奖**。”

这个猜想似乎在概念上有意义。修剪过的子网络池越大，找到中奖**的机会就越大。

不可不看系列！一年前，现代机器学习最重要的一篇论文诞生了

图源：unsplash

剪枝通常通过训练原始网络、删除连接和进一步微调来进行，而**假设证明，最优的神经网络结构可以从零开始学习。

MIT的**假设挑战了神经网络训练的传统智慧，有望成为近年来最重要的机器学习研究论文之一。

不可不看系列！一年前，现代机器学习最重要的一篇论文诞生了

推荐阅读专题

不可不看系列！一年前，现代机器学习最重要的一篇论文诞生了

留言点赞发个朋友圈

我们一起分享AI学习与发展的干货

编译组：王俊博、苏韫琦

不可不看系列！一年前，现代机器学习最重要的一篇论文诞生了

相关推荐