NLP新进展

深度学习遇见代码搜索，一篇论文概览神经代码搜索

进行代码搜索时，query 和候选代码段都被映射至共享向量空间。搜索即相当于最大化 query 嵌入和代码嵌入之间的向量相似度度量（如余弦相似性）。

向量表示可以通过无监督方式学得，即仅使用代码，也可以通过监督方式学得，即利用代码段及其对应自然语言描述对数据。

很多是用了fastText来编码自然句子和代码段；

最新NLP架构的直观解释：多任务学习– 百度ERNIE 2.0

提出“持续多任务学习”概念：

不是训练所有任务（图2），而是按顺序训练它们：

在任务1上进行训练
使用上一步中的参数，并在任务1、2上进行训练
使用上一步中的参数，并在任务1、2、3上进行训练，以此类推…

文字识别 OCR 技术早期是用规则+机器学习的方法来做，那时候，一个 OCR 技术系统可能会分为几部分，从区域检测、行分割、字分割、单字识别、语言模型解码、后处理等一步步做下来。加入深度学习技术后，我们开始使用大数据进行训练，而且阶段目标也很明确，我们找到一些深度学习的特征，这个时候一个 OCR 系统就简化到只需要检测、识别两个过程，典型的基于深度学习的 OCR 系统大概是这样。随着深度学习技术进一步发展，我们开始在 OCR 里面进行多任务的联合训练、端到端学习、特征复用/互补，这个时候，甚至这两个阶段也不用区分了，而是一体化地就把一个文字识别的任务给做了。

NLP新进展

深度学习遇见代码搜索，一篇论文概览神经代码搜索

最新NLP架构的直观解释：多任务学习– 百度ERNIE 2.0

百度PaddlePaddle(飞桨)介绍

相关推荐