信息检索 笔记(2)
第二节课笔记
在第一节课之中讲了
Boolean(exact match)
Statistical language models
这节课要将讲的是:
vector space
Latent Semantic indexing
所遇到的问题:如何选取基向量。
维度。幅值。
在线性独立的时候,基向量意味着不会包含其他维度的信息。
当有的向量不线性独立的时候,就会出现信息的冗余。
对于模型来讲,如何确定它的基向量?
特征选择问题。
用基向量来表示document。
不管是document还是query,都是指文本特征,text。通常从语义的理解对文本的表示。
用核心概念来表示文本。
但是难点是怎么去找到核心概念:
“but difficult to determine”
引申出第二种方式,直接用出现的词语,即"term":
问题是:not at all ortihogonal 不能保证其是正交的。
会有new term出现。维度特别大。
ues terms 作为基向量。
注意是term,不是word,有一个停用词列表,比如of 在语义分析的时候不用。
怎样讲选择的term query document映射到向量空间中?
注意:只是说要得到映射表。
如何确定赋值(系数)
那么如何计算相似度?
方法2,但是复杂度较高。
可以用来降维。