Dialog System Using Real-Time Crowdsourcing and Twitter Large-Scale Corpus

聊天系统结构如下:

Dialog System Using Real-Time Crowdsourcing and Twitter Large-Scale Corpus
(1)从web爬取料聊天语料,制作聊天对话,即Utterance Pair Corpus.

(2)用户输入聊天语句,即user input,将user input与(1)中的聊天语句匹配,当匹配置信度大于某一阈值时,得到最佳的匹配作为回答,即response.

计算与输入最相似的句子作为回答,首先计算每个句子d的词wi的向量表示:

xi=tfi/ni

tfi为词wi在句子中出现的次数,ni表示该句子包含的词的总数.

句子d的所有词的向量组合得到句子d的向量表示.

对于两个句子d1,d2,计算其向量da,db,计算句子相似度如下:

similarity(da,db)=xTaxb

对于输入query,首先查找本地中所有response与其的相似度,得到相似度最大的response.

(3)如步骤(2)中没有得到匹配对,则采用Real-Time Crowdsourcing,即把当前的user input 输入到其他users,让其他users来回答,得到respose给当前的usr.