《信息检索导论》部分实验python实现汇总

应用python语言实现了《信息检索导论》部分实验,整理一个汇总的博客为大家指路,目前还在更新中。书籍封面如下图,大家认准教材,不要弄错。
《信息检索导论》部分实验python实现汇总
所编写实验均为老师布置的作业,没有太多理论上的讲解,且各个博客的形式会太过统一和单调,希望各位不要介意。另外可能会有不全的实验,或者和自己需求不一致的情况,也望大家谅解。

实验一:倒排记录表的合并算法实现

布尔检索中需要进行倒排记录表的合并,有多种合并算法。通过实验,使学生掌握搜索系统中重要的倒排记录表的求交集的合并算法。

1. 两个倒排记录表的合并算法。P8

2. 输入多个词项与查询时倒排记录表的合并算法。P10

3. 基于跳表指针的倒排记录表的合并算法。P27

4. 邻近搜索中两个倒排记录表的搜索算法。P30

实验二:两个字符串编辑距离的计算方法实现

通过实验,使学生掌握检索系统中为实现拼写校正,计算两个字符串之间的编辑距离的方法。

采用动态规划算法,编程计算两个字符串之间的编辑距离。P41

实验三:可变字节码的编码和解码算法实现

检索系统中的倒排记录表所占空间巨大,因此索引压缩非常关键,可变字节码VB编码利用整数个字节对间距编码和解码,能够在时间和空间上达到一个非常好的平衡点。通过实验,使学生掌握索引压缩的可变字节码VB的编码和解码算法。

通过编程实现这个VB的编码和解码过程。P68