浅谈信息检索

 

 

浅谈信息检索

什么是信息检索

信息检索,这个词听起来很学术,如果换一个词语:搜索,谷歌,百度,相信大家一定不陌生。在过去,信息检索是图书馆等机构用来为大量数据建立索引,快速查询的一种方式,主要依赖人工整理的方式。互联网时代的到来和搜索引擎的出现,彻底颠覆了信息检索这样一门技术。我们今天介绍的信息检索,主要内容就是教大家怎样用好搜索引擎。做搜索引擎技术最好的公司是谷歌,现在的市值8000万美元左右,大约是阿里巴巴的两倍,百度的20倍。

搜索引擎的用法大家一定不陌生,打开搜索引擎,在对话框中输入你想要的问题就行了,回车就行了。好的,课程结束……

百分之八十的情况,是不是这样就行了。比如说我要搜索二十四节气,直接在输入框中输入二十四节气敲回车就行了,是不是?这算什么技术,小孩子都会。但是,当面对开放性、学术性和技术性问题的时候,怎样搜索,用什么工具搜索就非常关键了,这就是信息检索的技术所在。

我该输入什么

信息检索,最首要的是我该怎样描述我的问题,怎样用十个字左右将我的问题概况清楚,让搜索引擎能够检索到有效信息。如果字数太多,搜出来的信息就比较离散,抓不到重点。如果字数太少,信息概况程度太高,无法聚焦具体问题。

这里给大家几个原则,具体情况还需要你们自己分析。首先是尽量限定范围,检索一个具体问题肯定比按照一个主题泛泛的找要好。比如说,我们今天学的切片相关的知识,应该怎么检索?

直接搜索切片?有的同学输入的“切片相关资料 ”,“告诉我切片有关的知识”

搜索引擎都是基于文本进行检索的,我们输入太多无关的文字会降低搜索的准确度。“相关资料”,“有关知识”“告诉我 ……是什么”  “我该怎样……”

这些虚词、助词、语气词等等“废话”都省略掉就可以了,我们只保留关键词切片。

只搜索切片的话,我们看到信息非常的离散,有医学上的切片,有Go语言的切片。而我们相应的信息是python的切片知识。所以说,我们需要更多的关键词去细化问题。

这里可以输入“python 切片 字符串 详解”

或者 “python 切片 字符串 入门”

等等。按照我们的需求,细化问题,用三到五个关键字准确定位我们想要的信息,这就是搜索引擎的使用原则。

搜索引擎是支持多语言的,同学们日常使用可能都只用中文搜索,这其实无意中大大局限了我们信息的获取。特别是一些技术性、学术性问题,使用英语搜索是非常有效的。例如我们搜索”python  slice”,可以看到很多国外的资料,甚至有python设计者的官方解释,这对我们学习python是非常有效的。同学们以后英语水平越来越高,会慢慢体会到英文搜索的好处。

高级搜索

直接搜索的方式对网页搜索非常方便,如果我想下载文件,例如电子书,ppt等,用直接搜索就很麻烦了。这个时候可以用到高级搜索语句:filetype

例如我们来搜索电子书《与小卡特一起学python》,可以这么搜索

“与小卡特一起学python filetype:pdf”

我们看到第一条打开就可以直接下载pdf了。

再比如,我想获得一个大学生消费报告的ppt。可以搜索“大学生消费 filetype:ppt”

常用的文件类型有pdf、doc、xls、ppt等

掌握了按文件类型的搜索方式,下面再来介绍按网站搜索内容的方式。例如我搜索豆瓣上关于霸王别姬的内容,可以搜索“霸王别姬 site:douban.com”

可以看到检索到的内容都是豆瓣中关于霸王别姬的简介、影评、图书等。

site后面跟的是网站的域名,也就是网址。

这个功能也是非常方便的,虽然大多数网站都有自己的搜索按钮,但是功能肯定远远不如Google强大。

双引号的作用是精确匹配,比如当我们想搜索“山东大学(威海)”而不是“山东大学”的资料,就可以使用精确匹配的功能。它通常用在容易发生混淆的关键字检索上。

减号的作用是不包含,比如当我们想搜索“山东大学”而不是“山东大学(威海)”,就可以用“山东大学  -威海”  注意空格。

以上的语法,如果我们记不住,也可以在Google搜索框下方的设置——高级搜索中打开,这些功能的用法和解释都有。

在打开的网页中,可以使用Ctrl+F,快速定位我们需要的关键词。

有些信息的时效性很重要,可以按照时间过滤。例如我想找《肖申克的救赎》用于影视评论研究,可以搜索“肖申克的救赎 pan.baidu.com”

有经验的同学都知道,检索到的网盘链接大都是失效的。这时我们就需要对时间做一个限定,在搜索框旁边的时间选项,将时间限定为过去一月内,这样得到的链接就是比较新的,被封的概率小。

图片搜索

有时候我们需要一些图片素材,比如说做ppt,视频制作等。这时利用图片搜索功能就非常方便。输入关键词进行图片搜索即可。在使用别人的图片的时候,我们需要注意版权问题。

 

最后给大家推荐几个好用的网站

https://github.com  开源代码社区,同时也有一些教学资源。

http://wikipedia.org 全球爱好者共同建立的百科词条,严谨度较高,尤其是英文词条。

https://zhihu.com  国内比较优质的交流社区,领域包罗万象,以分享行业知识、生活经验为主。