信息检索笔记 (3)

概率信息检索模型:
信息检索笔记 (3)
信息检索笔记 (3)
信息检索笔记 (3)
信息检索笔记 (3)
信息检索笔记 (3)
1、找到相关文档集合。
2、估计概率相关模型
3、对文档进行概率估计。
信息检索笔记 (3)

信息检索笔记 (3)
用一个相对值来评价文档相似度。
信息检索笔记 (3)
看一下判断错误得概率:

信息检索笔记 (3)
对每一种决策错误给予决策错误得代价:
信息检索笔记 (3)
信息检索笔记 (3)
信息检索笔记 (3)
信息检索笔记 (3)
BIR:为了得到概率的估计而得到的概率模型
1、讲文档拆成若干个向量。
当维度所对应的di所对应的term不在document里,则为0,否则为1.
定义pi:
一个相关文档包含第i个term的概率。
pi:
一个无关文档包含第i个term的概率。
注意:pi+qi是不确定的,相互独立。

信息检索笔记 (3)
信息检索笔记 (3)
简化计算:
信息检索笔记 (3)
那么怎么计算Pi和qi
在初始的时候,概率分布是要去猜的
信息检索笔记 (3)
这个方法为了降低文档长度的影响:
信息检索笔记 (3)
信息检索笔记 (3)
信息检索笔记 (3)
信息检索笔记 (3)