2015/7/11 计算机视觉日报摘录

深度学习的应用: 一、人脸识别(Face Verification)。LFW数据库上的结果,从最早的90%左右的正确率,一路被研究人员刷到了99.5%以上。人脸相关的应用受此影响,也越来越多。

二、通用物体检测。ImageNet上的检测任务结果,MAP从最早的0.3左右,一路提高到0.66,感觉提高空间还有不少。

三、图像分割。现在深度学习已经可以做到输入是一张图片,输出就是逐个像素分割后的结果,中间也不需要任何预处理,并且精度远超非深度学习的结果。

四、光学字符识别(OCR)。这里指一般意义的字符序列识别。这个问题的传统做法也是非常复杂的,需要进行字符分割,各种预处理,然后单个字符预测完成后如何拼成完整输出等等。深度学习的做法也是端到端的,输入是图片形式的文字,输出直接就是识别结果了,简单、方便还更准确。所以,现在很多简单点的验证码,想作为图灵测试,分辨人还是robot的话,已经没太大用处了。

五、玩游戏——DeepMind团队的杰作。基于深度学习和强化学习(Reinforcement Learning),计算机已经可以自己学习玩一些简单游戏了,整个过程不需要任何人的干预。对于打砖块这样的简单游戏,甚至已经超过了普通玩家的水平。

文本理解: 一、关于文本,一个很重要的工作是词向量(word2vec)。 词向量是指通过对大量文本的学习(no label),根据前后文自动学习到每个词的语义,然后把每个词映射为一个紧凑的实数向量形式的表达,而且具有很多好的性质,比如vec(中国)减去vec(北京)约等于vec(英国)减去vec(伦敦)。这里强调一句,这种向量化的紧凑表达形式在深度学习中是非常重要和普适的。任何抽象的知识都可以建模成这种紧凑的向量形式。类似的还有很多扩展性工作,比如,人们研究如何把一句话映射为一个向量,甚至把一段文字映射为一个向量。

二、文本的各个词之间是有顺序的,而传统做法总是采用词袋模型忽略掉这些顺序。 为了更好的挖掘和利用这个性质,人们渐渐倾向于采用递归神经网络(RNN)来描述它。RNN也不是什么新鲜事物,其实就是允许节点之间的连接有环的存在。不过就像我们之前说的,大数据、GPU、优化、深度学习在其它领域的突破等等又给它带来了新的活力。RNN做文本理解的大概思路是,按顺序处理一段话的每个单词,在它看到后面内容的时候,它的某些参数里还保留着对前面看到过的信息的“整合和抽象”。它是有一定的记忆功能的,而且不需要人为告诉它应该记住什么,它会从训练数据中自然的进行学习,然后记忆在“环”里。RNN的结构比普通神经网络复杂,而且优化过程更加困难,但目前已经有了BPTT、LSTM等很多解决方案,在这方面有着很多的相关工作,总体来看,结果让人觉得很有希望。

三、深度图灵机(Deep Turing Machine)。 它简单来说就是RNN加上一块专门用于记忆的部分。这是个更加一般化的计算模式,和图灵机计算能力等价。它的记忆体其实就是一个实数矩阵。呵呵,我们又一次见到了这种连续的紧凑向量或者矩阵的表达形式。它可以记录信息而且方便梯度传递,经常被研究人员拿来各种建模,是构建端到端的模型,进行统一优化的利器。

物品推荐

2015/7/11 计算机视觉日报摘录

转载于:https://my.oschina.net/lfxu/blog/477274