信息检索 笔记(2)

第二节课笔记
在第一节课之中讲了
Boolean(exact match)
Statistical language models

这节课要将讲的是:
vector space
Latent Semantic indexing
信息检索 笔记(2)

所遇到的问题:如何选取基向量。
维度。幅值。
信息检索 笔记(2)
在线性独立的时候,基向量意味着不会包含其他维度的信息。
当有的向量不线性独立的时候,就会出现信息的冗余。
信息检索 笔记(2)
对于模型来讲,如何确定它的基向量?
特征选择问题。
用基向量来表示document。
不管是document还是query,都是指文本特征,text。通常从语义的理解对文本的表示。
用核心概念来表示文本。
但是难点是怎么去找到核心概念:
“but difficult to determine”

信息检索 笔记(2)
引申出第二种方式,直接用出现的词语,即"term":
问题是:not at all ortihogonal 不能保证其是正交的。
会有new term出现。维度特别大。
信息检索 笔记(2)
信息检索 笔记(2)
ues terms 作为基向量。
注意是term,不是word,有一个停用词列表,比如of 在语义分析的时候不用。
怎样讲选择的term query document映射到向量空间中?
注意:只是说要得到映射表。
信息检索 笔记(2)
信息检索 笔记(2)
信息检索 笔记(2)
如何确定赋值(系数)
信息检索 笔记(2)
信息检索 笔记(2)
信息检索 笔记(2)
那么如何计算相似度?
信息检索 笔记(2)
信息检索 笔记(2)
信息检索 笔记(2)
信息检索 笔记(2)
信息检索 笔记(2)
信息检索 笔记(2)
信息检索 笔记(2)
信息检索 笔记(2)
信息检索 笔记(2)
信息检索 笔记(2)
方法2,但是复杂度较高。
信息检索 笔记(2)
信息检索 笔记(2)
信息检索 笔记(2)
可以用来降维。
信息检索 笔记(2)
信息检索 笔记(2)