2015/7/11 计算机视觉日报摘录

为什么80%的码农都做不了架构师？>>> 2015/7/11 计算机视觉日报摘录

深度学习的应用：一、人脸识别（Face Verification）。LFW数据库上的结果，从最早的90%左右的正确率，一路被研究人员刷到了99.5%以上。人脸相关的应用受此影响，也越来越多。

二、通用物体检测。ImageNet上的检测任务结果，MAP从最早的0.3左右，一路提高到0.66，感觉提高空间还有不少。

三、图像分割。现在深度学习已经可以做到输入是一张图片，输出就是逐个像素分割后的结果，中间也不需要任何预处理，并且精度远超非深度学习的结果。

四、光学字符识别（OCR）。这里指一般意义的字符序列识别。这个问题的传统做法也是非常复杂的，需要进行字符分割，各种预处理，然后单个字符预测完成后如何拼成完整输出等等。深度学习的做法也是端到端的，输入是图片形式的文字，输出直接就是识别结果了，简单、方便还更准确。所以，现在很多简单点的验证码，想作为图灵测试，分辨人还是robot的话，已经没太大用处了。

五、玩游戏——DeepMind团队的杰作。基于深度学习和强化学习（Reinforcement Learning）,计算机已经可以自己学习玩一些简单游戏了，整个过程不需要任何人的干预。对于打砖块这样的简单游戏，甚至已经超过了普通玩家的水平。

文本理解：一、关于文本，一个很重要的工作是词向量（word2vec）。词向量是指通过对大量文本的学习（no label），根据前后文自动学习到每个词的语义，然后把每个词映射为一个紧凑的实数向量形式的表达，而且具有很多好的性质，比如vec(中国)减去vec（北京）约等于vec(英国)减去vec(伦敦)。这里强调一句，这种向量化的紧凑表达形式在深度学习中是非常重要和普适的。任何抽象的知识都可以建模成这种紧凑的向量形式。类似的还有很多扩展性工作，比如，人们研究如何把一句话映射为一个向量，甚至把一段文字映射为一个向量。

二、文本的各个词之间是有顺序的，而传统做法总是采用词袋模型忽略掉这些顺序。为了更好的挖掘和利用这个性质，人们渐渐倾向于采用递归神经网络（RNN）来描述它。RNN也不是什么新鲜事物，其实就是允许节点之间的连接有环的存在。不过就像我们之前说的，大数据、GPU、优化、深度学习在其它领域的突破等等又给它带来了新的活力。RNN做文本理解的大概思路是，按顺序处理一段话的每个单词，在它看到后面内容的时候，它的某些参数里还保留着对前面看到过的信息的“整合和抽象”。它是有一定的记忆功能的，而且不需要人为告诉它应该记住什么，它会从训练数据中自然的进行学习，然后记忆在“环”里。RNN的结构比普通神经网络复杂，而且优化过程更加困难，但目前已经有了BPTT、LSTM等很多解决方案，在这方面有着很多的相关工作，总体来看，结果让人觉得很有希望。

三、深度图灵机（Deep Turing Machine）。它简单来说就是RNN加上一块专门用于记忆的部分。这是个更加一般化的计算模式，和图灵机计算能力等价。它的记忆体其实就是一个实数矩阵。呵呵，我们又一次见到了这种连续的紧凑向量或者矩阵的表达形式。它可以记录信息而且方便梯度传递，经常被研究人员拿来各种建模，是构建端到端的模型，进行统一优化的利器。

物品推荐

2015/7/11 计算机视觉日报摘录

转载于:https://my.oschina.net/lfxu/blog/477274

2015/7/11 计算机视觉日报摘录

相关推荐