基于卷积神经网络的Web搜索语义表示学习【论文笔记】

原文: Learning Semantic Representations Using Convolutional Neural Networks for Web Search

主要贡献:
提出了基于CNN的潜在语义模型,对搜索查询和网页文档学习低维语义向量。
主要内容:

  • 通过卷积最大池化操作对词n-gram级的局部上下文进行建模
  • 提取词序列的显著局部特征,组合成全局特征向量
  • 提取词序列的高级语义信息形成全局向量表示

该模型使用用户查询后的点击文档进行训练,并通过Web文档排名任务评估。该模型在检索性能上明显优于其他语义模型。

1 导言

信息检索领域(IR)建立上下文信息模型已有方法及问题:

  • 潜在语义模型(如LSA),可在语义层面讲查询映射到相关的文档,但由于将查询或文档视为词袋,在捕获上下文结构上并不理想;
  • TF-IDF、BM25和主题模型,捕获上下文信息过于粗粒度;
  • 基于短语的翻译模型,直接对短语(或n-gram)建模,会遇到数据稀疏问题;
  • 基于深度学习的语义理解技术,如深度自编码器和最近的深度结构化语义模型(DSSM)

本文方法:

  • 通过卷积层将上下文窗口中的单词投影到局部上下文特征向量;
  • 通过池化层提取最显著局部特征(句子语义由几个关键词来决定)形成全局特征;
  • 通过仿射变换和非线性函数提取最终特征;
  • 当查询和多个候选网页都通过该方法提取语义特征向量后,通过余弦相似度高低可以得出多个候选网页的排序结果。

2 C-DSSN架构

C-DSSM的体系结构包括以下几层:

  • 词哈希层:通过单词哈希技术将输入单词序列中的每个单词转换为特征向量,单词通过它的字母三元组计数向量表示;
  • 卷积层:提取局部上下文特征,卷积运算可以认为是基于滑窗的特征提取,使用tanh作为非线性**函数;
  • 最大池层:形成全局特征向量,最大池化层可以抑制非显著的局部特征,保留显著特征;
  • 语义层:表示输入词序列的高级语义特征向量,使用tanh作为非线性**函数。
    基于卷积神经网络的Web搜索语义表示学习【论文笔记】
    需要计算相似度的查询Q和文档D,都通过上面的模型得到各自语义向量yQ和yD,然后通过两者的余弦相似度计算两者的相关得分。
    基于卷积神经网络的Web搜索语义表示学习【论文笔记】

3 实验

实验中该模型的卷积层和最大池层都有300个神经元,使用128个神经元作为最终输出层,通过从一年的查询日志文件中抽取的3000万个查询/点击标题对来训练。
评估数据集包含从商业搜索引擎的一年查询日志文件中取样的12071个英语查询,每个查询平均与65个Web文档关联。
本文模型与一组基准模型(BM25、unigram语言模型ULM、基于短语的翻译模型PTM、基于单词的翻译模型WTM和DSSM)比较,结果如下。
基于卷积神经网络的Web搜索语义表示学习【论文笔记】