《信息检索导论》部分实验python实现汇总
《信息检索导论》部分实验python实现汇总
- 实验一:倒排记录表的合并算法实现
- 1. [两个倒排记录表的合并算法。P8](https://blog.****.net/qq_36949278/article/details/105647801)
- 2. [输入多个词项与查询时倒排记录表的合并算法。P10](https://blog.****.net/qq_36949278/article/details/105846251)
- 3. [基于跳表指针的倒排记录表的合并算法。P27](https://blog.****.net/qq_36949278/article/details/105840832)
- 4. [邻近搜索中两个倒排记录表的搜索算法。P30](https://blog.****.net/qq_36949278/article/details/105848704)
- 实验二:两个字符串编辑距离的计算方法实现
- 实验三:可变字节码的编码和解码算法实现
应用python语言实现了《信息检索导论》部分实验,整理一个汇总的博客为大家指路,目前还在更新中。书籍封面如下图,大家认准教材,不要弄错。
所编写实验均为老师布置的作业,没有太多理论上的讲解,且各个博客的形式会太过统一和单调,希望各位不要介意。另外可能会有不全的实验,或者和自己需求不一致的情况,也望大家谅解。
实验一:倒排记录表的合并算法实现
布尔检索中需要进行倒排记录表的合并,有多种合并算法。通过实验,使学生掌握搜索系统中重要的倒排记录表的求交集的合并算法。
1. 两个倒排记录表的合并算法。P8
2. 输入多个词项与查询时倒排记录表的合并算法。P10
3. 基于跳表指针的倒排记录表的合并算法。P27
4. 邻近搜索中两个倒排记录表的搜索算法。P30
实验二:两个字符串编辑距离的计算方法实现
通过实验,使学生掌握检索系统中为实现拼写校正,计算两个字符串之间的编辑距离的方法。
实验三:可变字节码的编码和解码算法实现
检索系统中的倒排记录表所占空间巨大,因此索引压缩非常关键,可变字节码VB编码利用整数个字节对间距编码和解码,能够在时间和空间上达到一个非常好的平衡点。通过实验,使学生掌握索引压缩的可变字节码VB的编码和解码算法。