论文阅读笔记2

作者信息:Sofiyanti Nery这个作者写的论文不是很多,但是他的个人主页上有很多关于深度学习模型的解释和自己做的若干实验,是少数几个把深度学习讲的特别清楚透彻的人了。
发表日期:2015,2
发表期刊/会议:IEEE Transactions on Neural Networks &Learning Systems。
被引量:27

主要内容:这篇文章指出CNN存在的问题:神经网络不能像人类一样地持续思考,而是丢掉以前知识重新学习。这一点是不符合人类的认知过程的,因为人的学习过程是积累知识的过程,此刻的思考离不开以前学习的知识,因此为了能让机器持续地思考,引入了循环神经网络的结构,把前面学习到的知识传递给下一个节点,一环扣一环地向后传播,直到输出结果。如下图1所示:
论文阅读笔记2
图1 循环神经网络工作图
  这个网络把输入序列做了链式展开,每个节点分别处理输入,并且把学习到的信息传递给下一个节点,这种做法能够让信息的得到了有效的传递,并且在很多领域都获得了可喜的成绩,包括语音识别、语言模型、机器翻译、图像字幕等,都用到了RNN的变形LSTM,这是一种特殊的RNN,在很多应用上,LSTM的效果比标准RNN要好很多。于是接下来介绍了LSTM模型。
  RNN被选择的原因在于它可以连接前面的信息为当前节点所用,就像人积累了一定的知识,可以作为现在理解事物所用。但是事实上,判断一个事情有时候不需要所有的知识,只需要一些知识片段就可以,比如要理解文章中的一个句子,只需要根据上下文来理解即可,不需要利用以前获得的所有的知识。或者说利用以前的知识可能会导致误判,因此并不是把所有的知识联系起来就可以获得正确的决策,而是需要舍弃一些,这就是LSTM的由来。
作者给网络增加gate来做取舍,很多人把gate翻译为门,可以增进对模型的理解。在对事情进行判断的时候,我们要对知识进行适量取舍,有用的信息留下,没有的信息需要暂时遗忘,因此取舍的这个过程我们用gate来模拟,通过遗忘门,把不需要的知识过滤掉,留下有用的信息来做出决策。
论文阅读笔记2
图2 长短期记忆模型(LSTM)工作原理图
如图2所示,LSTM整个结构就是一个链式的传送带,LSTM和RNN的区别在于有两条水平带,上面的水平带传送有用的信息,下面的水平带中处理输入数据,并且增加了一个门,过于信息的过滤,如果不需要,可以通过遗忘门来删除信息,只通过有用的信息。对于信息也有不同的处理方式,是完全有用还是部分有用,因此设置了三个门来判段,sigmoid层的输出介于0和1之间,输出为0表示不通过,输出为1表示都通过,一个LSTM通过这样的二门来控制和保护cell state。
具体的如何选择信息以及LSTM的变体就不一一展开,这篇文章从原理上展示了长短期记忆模型是如何工作并且获得有用信息的,讲述的很到位,有茅塞顿开的感觉。感觉深度网络模型也不是什么深不可测的东西,主要还是靠平时的积累和学习就可以理解和应用。

阅读心得: 长短期记忆模型可以用于做服务质量的预测,由于长短期记忆模型有记忆的特性,可以学习到服务质量随着时间变化的潜在特点,并且舍弃无用信息,利用有用特征来判断下一个时间点的服务质量。查找论文当前并没有基于长短期记忆模型,分析了一下原因,主要有如下几点:
1. 长短期记忆模型是一个很新的概念,目前应用领域仅仅在图像识别自动生成字幕、语音识别、实时翻译等,最新的服务质量的预测是BP神经网络,这个模型已经很老了,并没有创新。
2. 很多文章都在研究如何做插值预测,就是填补矩阵的空值,进而做基于QoS的服务选择和服务推荐。然而服务推荐现在都基于已有的服务质量数据来推荐,并不是实时推荐。
3. 服务质量的数据不太好收集,之前做实验的数据集是SCI文章发表的一个公开数据集,大家都在使用这个数据集来做文章。该数据集的特点是服务、用户、服务质量,没有基于时间序列的数据集,因此其它的学者也就没有研究基于时间序列的预测。
因此这应该是一个很好的题材,可以写出好文章。那么接下来就应该收集足够的基于时间序列的服务质量数据,搭建window下的tensorflow环境来写基于LSTM的学习模型。