NLP新进展

深度学习遇见代码搜索,一篇论文概览神经代码搜索

进行代码搜索时,query 和候选代码段都被映射至共享向量空间。搜索即相当于最大化 query 嵌入和代码嵌入之间的向量相似度度量(如余弦相似性)。

向量表示可以通过无监督方式学得,即仅使用代码,也可以通过监督方式学得,即利用代码段及其对应自然语言描述对数据。

很多是用了fastText来编码自然句子和代码段;

 

最新NLP架构的直观解释:多任务学习– 百度ERNIE 2.0

提出“持续多任务学习”概念:

不是训练所有任务(图2),而是按顺序训练它们:

  1. 在任务1上进行训练

  2. 使用上一步中的参数,并在任务1、2上进行训练

  3. 使用上一步中的参数,并在任务1、2、3上进行训练,以此类推…

 

百度PaddlePaddle(飞桨)介绍

文字识别 OCR 技术早期是用规则+机器学习的方法来做,那时候,一个 OCR 技术系统可能会分为几部分,从区域检测、行分割、字分割、单字识别、语言模型解码、后处理等一步步做下来。加入深度学习技术后,我们开始使用大数据进行训练,而且阶段目标也很明确,我们找到一些深度学习的特征,这个时候一个 OCR 系统就简化到只需要检测、识别两个过程,典型的基于深度学习的 OCR 系统大概是这样。随着深度学习技术进一步发展,我们开始在 OCR 里面进行多任务的联合训练、端到端学习、特征复用/互补,这个时候,甚至这两个阶段也不用区分了,而是一体化地就把一个文字识别的任务给做了。

NLP新进展