摘要

社区问题的难点在于：重复性问题
解决上述问题要采用Query retrieval(QR)，QR的难点在于：同义词汇
本文算法：1）采用continuous bag-of-words(CBoW)模型对词（word）进行 Distributed Representations(分布式表达，词嵌入)；2)对given query和存档的query计算tile域和description域的相似度；3）将用户信誉(user reputation)也用于排序模型
测试数据集为 Asus's Republic of Gamers (ROG) 论坛

引言

QR的难点在于同于词汇，处理同义词的方法有四种：

Language model information retrieval (LMIR):思想为计算给定问题和候选问题间词序列的概率
language model with category smoothing (LMC)：将问题类别表示为向量空间的一个维度（上述两种方法的缺点为：忽略了词与词之间的相似度）
translation-based language modeling (TBLM)：使用QA对来学习语义相关的单词以改进传统的IR模型，缺点是学习一个翻译表太耗时
distributed-representation-based language modeling (DRLM) :使用数据的分布式表示来替换TBLM中的词到词间的翻译概率，其使用word2vector计算概率

本文算法包含三部分：1）词嵌入学习：给定论坛数据集，问题被视为基本单位，问题中的每个单词都会转换为一个单词向量。

2）得分生成：学习到单词向量后，就可以通过计算查询问题和候选问题之间的相似性来进行问题检索。

3）使用信誉信息：通过引入每个存档问题参与者的信誉值来加强排序函数。

word2vec的理解可以参看博客[NLP] 秒懂词向量Word2vec的本质，研究表明CBoW模型在文本分类方面表现更好，特别适用于包含极少数不常见单词的文档，而且该模型的训练速度快于 skip-gram模型，因此本文采用CBoW进行词向量学习。