智能客服baseline
模块设计
1、 问题理解
问题分类、关键词识别、相似问题扩展
2、 知识检索、排序
相似度计算(lcs,BM25,tfidf+cosin,word2vec+cosin)
3、 答案生成
候选答案选择、排序。
问题分类
- 确定分类体系
- 标注分类数据
- 训练分类模型
- 模型选择与参数调节
关键词识别
- Tfidf
- 信息熵,互信息,卡方
- 语义角色标注
相似问题扩展
- 同近义词
- 模板匹配
- 句法分析
- Query改写
知识检索 相似度计算
(lcs,BM25,tfidf,word2vec)
1. 文本数据获取
2. 分词、计算tfidf、训练word2vec
3. 文本向量化表示
4. 计算相似度