信息检索的概述

信息检索的概述

信息过载

信息大爆炸
youtube 一分钟上传400小时视频苹果用户一分钟下载51000个应用google一分钟翻译69500000个单词siri一分钟回答错9万个问题。

总结:信息越来越多,如何迅速的定位我们需要的信息,抛弃无效的信息(搜索)

提高检索效率和生成新的检索技术,是关键;

传统检索方式

1.操作系统文件检索
直接通过操作系统搜索磁盘,全表遍历缺点:慢
文件的内存检索
word,excel,onenote,检索速度还行,文件一旦打开,文件的全部内容都加载到了内存;上限
512M;
缺点:数据量少

2.数据库检索
1like模糊查询才可以完成目前大部分检索的需求"%关键字%" “关键字%”(符合数据库最左特性查询,还是使用索引)
2索引优化(建立各种各样不同索引结构的索引文件,满足不同的查询条件的需求) 表格是有数据量的上限的
查询效率在临界点时,查询时间无限增加

信息检索的概述
缺点:数据量受限制

信息检索系统

一个完成的信息检索系统包括三部分
1信息采集
搜索引擎,通过网络爬虫技术,将公网的各个服务器的数据按照一定的规则,从万维网获取数据,单位超过亿级别,数据非常庞大;
2信息整理
爬取的这些内容,非结构化数据,无法完成任何快速搜索技术的搭建,一定经过处理,整理成有一定数据结构的数据文件才可以进行搜索的服务提供(创建索引的过程)
3接收查询
用户向检索系统发出查询请求,信息检索系统接收这个参数,在数据中获取对应的结果,返回用户;
信息检索的概述

全文检索的倒排索引计算方式(网页)

数据源:数据库,公网网页,各种行业中的数据,不同位置,不同系统,不同软件存储倒排索引:构成全文检索技术的创建索引文件的核心计算方法;
网页数据为例(源数据)

文章1: 马蓉和王宝强是否感情稳定
文章2: 狗仔队全程紧盯马蓉和王宝强的生活

1分词计算(一句话的分词计算,就是讲当前字符串拆分成具有最小意义的词) 文章1:(马蓉,1(频率),1(文章id)),(王宝,1,1),(王宝强,1,1),(是否,1,1),(感情,1,1)
文章2:(狗仔,1,2),(全程,1,2),(紧盯,1,2),(马蓉,1,2),(王宝,1,2),(王宝强,1,2)

2分词合并
(马蓉,[2],[1,2]) (王宝,[2],[1,2]) (王宝强,[2],[1,2]),(狗仔,1,2),(全程,1,2),(紧盯,1,2),(是否,1,1),(感情,1,1)

3生成索引文件
将分词合并的结构整理成二进制格式,保存到索引数据当中.
文章1,文章2,生成对应的结构的对象(document文档对象,文档对象时数据结构中的一个数据单位)

4结构
信息检索的概述
最终的索引文件,经过对源数据中的数据分词计算,对象封装过程整合成的上图结构,一个分词结果直接指向一批文档集合(document的集合)