深度学习还会好吗?

这篇文章应该是过年前写的最后一篇,写的缘由是年前这几个月,在对深度学习调参过程和现在过年算法招聘市场的一些思考,同样也是对今后的展望。


深度学习模型

最近做的一个项目是,将表格(单元格)内文本,通过模型的方式合并起来。之前一直是通过一些矢量规则做的合并,但是矢量规则很早就遇到了瓶颈(无线表格没有明显的边界),继续做下去无非是加更多的if else,打更多的补丁,所以想着能否用模型一把梭。思路就是,因为利用的规则,都是用的一些空间属性,比如说文本对其,文本字号大小,并没有考虑语义特征,就是换行的两个文本,连起来是否可以形成一个通顺的短语。
尝试了很多种模型结构:单独的RNN和CNN,CRNN,RNN-CRF,CNN-CRF,CRNN-CRF,基于Attention-base的seq2seq等等。

在使用这些模型的过程中,以及在看最近的新模型的时候,发现一个事实:深度学习一直都在炒现饭,所有的进步都是在这碗现饭加入了更多的材料和佐料。

不得不承认,深度学习的火热,确实实现了一些amazing的工作,但是深度学习的模型有本质的进步吗?
并没有,现在所有的模型,都只算是基础模型的变种,但是本质还是cnn和rnn的组合,然后加入各种机制和trick。
在学术界,人们还是在乐此不疲的提出不同的变种。所以我这里做一个大胆的预言,如果没有重大突破,深度学习肯定会有瓶颈。

这种突破可以是什么呢?我觉得主要是以下两个方面:

  1. 发生质变的计算能力。深度学习的大火就是因为12年GPU的推出,将计算机的计算能力提高到了一个新的高度,如果以后出现了更强大的计算设备,那么以现有的模型发生突破还是有可能的;
  2. 基础模型的进化。之前Hinton巨神提出的capsule提出了一种新的可能性。如果以后某位巨神找到了新的基础模型吊打cnn和rnn,那么将会引起一个新的浪潮;

深度学习(机器学习)的市场

这几个月所做的工作就是反复的检查数据,调整参数,检查数据,调整参数。而现在绝大部分的“深度学习工程师”,大部分时间都是在做以上工作。
但是这些工作对于公司来说,对于市场来说都是有意义的吗?(有意义指的的是产出)
为了有一个直观的感受,我把最近Google提出号称很难突破的BERT模型在NLP各个任务下的准确率图放出来

深度学习还会好吗?
最新的BERT效果

这些数值代表着不同模型在不同任务下的准确率。平均准确率最高的就是BERT的large版本,但是这个号称“有里程碑意义”的模型,最高只有81.9%。
另外,更重要的是,训练一次BERT模型要花多少钱:

  • For TPU pods:
    • 4 TPUs = $2/hr * 24 h/day * 4 days = $768 (base model)
    • 16 TPUs = $3k (large model)
  • For TPU:
    • 16 tpus = $8/hr * 24 h/day * 4 days = 12k
    • 64 tpus = $8/hr * 24 h/day * 4 days = 50k

就是说训练一次BERT-large需要50k,还是$,谁玩的起?

16-17年,AI市场迎来了巨大的投资浪潮,无数热钱涌向这个行业,18年,钱都烧光了,有多少公司能活着。说到底,以现在的技术水平,能将深度学习落地的项目很少

然而现在国内的技术岗的招聘市场大家也看到了,一地鸡毛。加上16年,AI概念被炒起来,那些劝退专业(机械,电子,生物,化学等)的学生,都在那个时候转去读CS的研究生,差不多该毕业出来找工作了,今后AI学生军只会更多。

深度学习是一个跨时代的技术,但是在资本的侵染下,浪潮马上就要退去。

到今天为止,我在知乎上获得 872 次赞同,获得 192 次感谢 , 2,073 次收藏,549 关注。而其中绝大部分关注和点赞的原因是我介绍了我如何转行做算法的转行经历。
今天,我希望这篇文章,被那些因为看到我转行做算法而关注我的人看到。我希望大家更理智的看待如今的算法招聘市场,因为算法的低端从业者(炼丹师,调包侠,调参侠),只会越来越不好过,入行门槛只会越来越低,两级分化会更严重。

所以,经过这些思考,我明年决定往后端转。由衷的庆幸自己选择了算法入行,经历了一次时代的浪潮。现在潮水退去,趁还没被裹挟进深海,上不了船的人,赶紧上岸才是求生的最好办法吧。