与机器学习的第一次亲密基础- 2. 三生三世,十里桃花

        在本小节,笔者将带着大家重走长征路,来一起回顾一下机器学习波澜壮阔的发展史。其整个发展史遵循了图1.3中所给出的趋势。从该图中可以看出,机器学习的历史大致可以归纳为以下五个阶段,也可以称之为机器学习发展的五个时期:

与机器学习的第一次亲密基础- 2. 三生三世,十里桃花

                                                                                        图1.3 机器学习发展趋势
1) 诞生期(1952年-1969年)
        与人工智能(Artificial Intelligence)这一词汇相同,机器学习(Machine learning)一词也诞生于1956年所举办的达特茅斯(Dart-mouth)会议上,由IBM工程师Samuel所提出。事实上,早在1952年,Samuel便开发了一款西洋跳棋程序,该程序具有自主学习能力,能够不断进化,提升自己的对弈水平。因此,在1956年,McCarthy邀请了Samuel在达特茅斯会议上分享其成果。也就是在那次盛会上,Samuel发明了“机器学习”一词,并且一直沿用至今。随后,机器学习吸引了很多研究者的目光,并逐渐繁荣起来。1957年,来自于美国康奈尔大学的Rosenblatt提出了感知机(Perceptron)模型。作为第一代神经网络模型,其可以通过监督学习建立简单的模式判别能力。尽管现在看来,感知机模型有很多局限,但在机器学习研究的初期,它确实还是有足够引起学术界振动的分量的。到了1967年,Cover和Hart共同在IEEE Transactions on Information Theory期刊上发文,提出了K近邻(K-Nearest-Neighbors)算法。同年,Macqueen提出了著名的聚类算法K-means。1969年,Minsky和Papert撰写了《Perceptron》一书,将机器学习研究推向了高潮,同时也给机器学习研究浇了一盆冷水。在该书中,他们提出感知机既不能解决非线性分类问题,也不能解决高阶谓词问题,从而使机器学习走向了低潮。
 
2) 沉寂期(1969年-1979年)
        随着积攒多年的技术红利相继被吃完,同时也受限于当时的硬件水平,第一次人工智能热潮终于退去,走向沉寂。作为人工智能重要分支之一的机器学习,自然也随着人工智能的退热而冷却。在这个十年,尽管仍有人在坚守,但机器学习领域产出的成果确是寥寥。比较有代表性的工作是Winston在1970年提出的结构学习系统和Roth等在1978年所提出的基于逻辑的归纳学习系统,但这些系统只能学习单一概念,而且未能投入实际应用。这个时期的研究目标是模拟人类的概念学习过程,并采用逻辑结构或图结构作为机器内部描述。机器能够采用符号来描述概念,并提出关于学习概念的各种假设。


3) 复兴期(1980年-1989年)
        1980年,在美国卡内基梅隆大学召开了第一届机器学习国际研讨会,标志着机器学习重回大众视野。在这一时期,计算机硬件的发展水平已经又上了一个台阶,同时理论的积累也已足够支撑新红利的发放,故在机器学习领域陆续出现了很多具有里程碑式的研究成果。可以说,机器学习在这一时期真正走向了复兴。
        这一时期在机器学习领域的标志性成果有:1984年,Breiman提出了CART算法;1985年,Pearl提出了贝叶斯网络模型,使复杂的因果计算成为可能;1986年,Quinlan提出了著名的ID3算法;同样是在1986年,Rumelhart和Hinton等提出了足以载入史册的BP神经网络算法,其将BP(误差反传算法)与多层感知器结构相结合,有效地突破了感知机的局限,并迅速收到了学术界与工业界的热捧。


4) 成型期(1990年-2005年)
        自上世纪九十年代始,机器学习走上了平稳发展的道路,新技术虽然层出不穷,但并无大起大落的现象发生。可以说,这一时期是机器学习技术真正的成型期。同时,这一时期也在积蓄着力量,为下一次大爆发做着准备。
        在这一时期,PAC可学习理论终于从理论走向了实用,同时统计学习技术也开始大行其道。1990年,Schapire提出了第一个Boosting算法,其可在多项式时间内将弱分类器提升为强分类器;1993年,Quinlan提出了ID3算法的改进版,并将其命名为C4.5算法,这也是目前最为流行的一种决策树算法;1995年,Vapnic数十年磨一剑,提出了支持向量机(Support Vector Machine, SVM)算法,这也可以看做是整个时期的标志性技术,在未来的数年内,SVM与BP神经网络的战争都一直是主旋律;同样在1995年,Freund和Schapire共同提出了AdaBoost算法,突破了传统Boosting算法的样本规模限制,走向了实用;1996年,Ester提出了DBSCAN算法,并逐渐发展成为了基于密度划分的聚类算法的代表;2001年,Breiman大神再一次登场,提出了让后人为之痴迷的随机森林(Random Forest)算法,该算法结合样本扰动和属性扰动为一身,进一步推动了Bagging集成学习技术的发展,直至今日,随机森林都是如Kaggle、天池这类数据挖掘竞赛平台的宠儿之一。


5) 繁荣期(2006年-今)
        在机器学习步入“知天命”的年龄阶段以后,它终于迎来了大爆发,这种爆发不仅体现在技术上,而且也体现在应用上。在这一时期,深度学习(deep learning)开始大行其道,它吸引着无数人眼球,招引投资人纷至沓来,同时也成为了普罗大众茶余饭后的热门谈资。可以说,在这一时期,机器学习终于真真正正地火起来了。
        这一时期截止目前重要的标志性成果有:2006年,大神Hinton等人在Science杂志上发表了一篇文章,提出了深度信念网络(Deep Brief Network, DBN)模型,从而掀起了深度学习研究的热潮;2012年,Alex Krizhecsky提出了Alexnet网络模型;2014年,Goodfellow结合博弈论的思想提出了生成对抗网络(Generative Adversarial Networks, GAN)模型,进一步推动了深度学习的理论与应用范畴。
        如今,深度学习已大行其道,无论是卷积神经网络CNN、递归神经网络RNN,还是GAN网络,都在广泛的应用领域中被逐渐神化。但不得不注意的是,深度学习只是机器学习的一个分支,而并不能代表机器学习的全部;它可能只对图像、视频、语音以及文本这类较为复杂的结构性数据更为有效;此外,深度学习对训练样本的规模以及硬件环境的要求都是较为苛刻的,并不是什么样的学习任务,深度学习都适用。


        通过前面对机器学习简史的回顾,读者可能已经热血沸腾,感觉自己无比幸运,生在了最好的年代,亲历了机器学习的“一飞冲天”。但笔者想说的是,这是机器学习“最好的年代”,也可能是“最坏的年代”,因为从其发展史来看,这一技术每一步的发展都需要数年的理论积累和硬件平台的升级,红利吃完了,自然会遇到瓶颈,盛极而衰,直至潜伏数年后再迎来下一次的全面爆发。如今,资本界和工业界对机器学习技术的过分炒作,未必就是值得“津津乐道”的,谁也不知道何时会走到这一时期的技术奇点,到那天,这项技术被推得越高,可能也会摔的越惨。