信息检索与利用(第三版)第六章 搜索引擎

第六章 搜索引擎

搜索引擎(search engine)就是网络信息资源检索与利用的核心工具
目录:信息检索与利用(第三版)第六章 搜索引擎

4.1 搜索引擎原理与分类

搜索引擎是一个提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。
搜索引擎常常是用户利用网上资源的第一途径。

4.1.1 工作原理

从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。
大多数搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。
搜索引擎也不能真正理解网页上的内容,它只能机械的匹配网页上的文字

4.1.2 工作特点

搜索引擎与其它文献数据库相比,其中一个最重要的不同是搜索引擎通过计算机自动完成信息资源的发现、标引和入库。
搜索引擎普遍存在以下缺点:
(1)搜索结果中广告、垃圾网站和死链比较多。
(2)没有统一的网络信息分类标准,令网络用和死链比较多。
(2)没有统一的网络信息分类标准,令网络用户无所适从。
(3)对资源不具有选择和价值判断的能力,排序结果不理想,难以搜索动态网页,查全率下降。
(4)与学术型数据库接口少,搜索出的有效学术信息大部分只能浏览目录信息,不能下载全文。

4.1.3 根据数据检索内容划分的搜索引擎类型

1.综合型
综合型搜索引擎在采集标引信息资源时不限制资源的主题范围和数据类型,又称为通用型检索工具。例如常见的Google、新浪、搜狐和网易,网罗百科,信息种类繁多。搜狐和网易,网罗百科,信息种类繁多

2.专题型
专题型搜索引擎专门采集某一主题范围的信息资源或某一类型信息,并用更为详细和专业的方法对信息资源进行标引描述。

3.特殊型
特殊型检索工具是指那些专门用来检索图像、声音等特殊类型信息和数据的检索工具

4.1.4 根据数据类型划分的搜索引擎类型

1.全文索引
是目前广泛应用的主流搜索引擎,国外代表有Google,国内则有著名的百度

2.目录索引
顾名思义就是将网站分门别类地存放在相应的目录中如中国的搜狐、、Yahoo。录中如中国的搜狐、、Yahoo

3.元搜索引擎
通过调用其它搜索引擎的检索功能来实现网络资源的查询

4.门户搜索引擎
如AOLSearch、MSNSearch等,虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎

4.2 搜索引擎的使用技巧

4.2.1 使用高级搜索和个性化设置

信息检索与利用(第三版)第六章 搜索引擎
信息检索与利用(第三版)第六章 搜索引擎

4.2.2 使用类别中搜索

许多搜索引擎都显示类别,一般都将常用类别(如新闻、网页、贴吧、知道、MP3、图片、视频、地图等)列在搜索框的上方或下片、视频、地图等)列在搜索框的上方或下方,而点击搜索类别后面的“更多”就可以查看非常用类别

4.2.3 注意搜索返回的结果

搜索结果页面除了搜索到网页或者文件的链接与说明,还有很多有价值的参考信息如:
分类相关搜索搜索结果情况搜索方式转换结果页面跳转

4.2.4 注意检索策略的使用

搜索引擎本质上也是一种数据库检索。因此针对数据库的检索策略,对搜索引擎几乎都可以使用,比如逻辑组配、条件限制、精确可以使用,比如逻辑组配、条件限制、精确匹配、通配符等。如果检索熟练,可以直接使用各种的检索策略;如果不熟练,建议多采用高级检索,因为高级检索选项本身就是检索策略的体现。

4.2.5 注意检索词的选用

搜索引擎不具备智能识别能力,只能针对查询词在现成的数据库中机械地搜寻与之相匹配的搜索词。因此,要准确、高效地查询信息,最关键之处就是要选择合适的查询关键词。
1、反映信息特征
2、表达信息要准确
3、表述信息要多元
4、考虑要查找的网页将以什么方式编写,避免使用自然语言

4.2.6 其他一些技巧

1、多个搜索引擎交替使用
2、需要查询经典的翻译时,可以同时使用中外文搜索词
3、实用信息可直接用搜索引擎解决网民经常进行查询的主要实用信息项,包括万年历查询、机票查询、火车票查询、IP地址查询、手机号查询、星座、天气等,几乎各种搜索引擎都可以直接提供答案或提供链接。

4.3 主要搜索引擎

4.3.1 Google

网址:http://www.google.com

4.3.2 百度

网址:http://www.baidu.com/

4.3.3 360搜索引擎

网址:http://www.so.com

4.3.4 搜狗搜索引擎

4.3.5 几款常用搜索引擎比较

Google是按照网页级别(PageRank)来收录的,只要网站有一定的网页级别,Google会才会收录,搜索结果按相关度排序;整合了全球范围的信息,功能强大,是易用性最强的搜索网站,搜索速度快而且提供了最丰富的高级搜索功能;适合专业人员。

百度是最大的中文搜索引擎,常用于生活话题和一般问题搜索,但搜索结果中广告、垃圾网站和死链比较多。

雅虎网页搜索不错,但死链率较高,而且缺少一些应有的高级搜索功能。
搜狗比较适用于电影、音乐、软件的搜索。

4.4 特色搜索引擎介绍

每个搜索引擎都有优缺点,根据不同的需要,应该使用不同的搜索引擎。如果要搜索英文内容,有网友推荐如下:上网随便索英文内容,有网友推荐如下:上网随便逛逛就用dmoz,平时搜索就用google,有问题就问ask,要做特定的主题搜索就用search.com。

4.4.1 InfoSeek 全文搜索

速度快,搜索结果给出URL网址,并显示该网址的大小。允许用户使用大写字母和成语。Infoseek现在还免费提供如股票报价、公司资料、E-mail地址、类似字典的各种参考资料以及邮政编码指南等资料。
在全文检索(WebSites选项)时可直接使用简繁中文,但收录内容不够丰富。

4.4.2 AltaVista全文搜索

网址:altavista.digital.com
用户介面友好,在线帮助文件完整,搜索速度快,能够识别大小写和专用名词,数据库最大,对Web和Usenet都能搜索到。用户最大,对Web和Usenet都能搜索到。用户也能将搜索的结果页翻译成几国语言。
出现同一网站的网页次数太频繁。

4.4.3 Ask自然提问搜索

网址:www.ask.com
支持自然提问搜索,它的数据库里储存了超过1000万个问题的答案,只要你用英文直接输入一个问题,它就会给出问题答案。当使输入一个问题,它就会给出问题答案。当使用者遇到一些属于事实型、原理型的问题时,使用Ask是最方便的。
对于主观型问题,不一定能得到较好的答案。

4.4.4 Dmoz(ODP)目录搜索

网址:www.dmoz.org
适用于分类浏览,收录了40多万子目录和近300万个网站,dmoz使用起来非常方便。它还用一颗小星星推荐各个目录下最好的网站。颗小星星推荐各个目录下最好的网站。
ODP的编辑人员均为志愿者,收录网站的时间较长,分类目录的质量难以控制

4.4.5 search元搜索引

网址:www.search.com
适合特定主题搜索,它收集了800多种专业搜索引擎和数据库,共分为15个大主题,每个大主题又分许多小主题。

4.4.6 Alltheweb全文搜索

网址:www.alltheweb.com
支持225种文件格式搜索,其数据库已存有49种语言的21亿个Web文件,而且以其更新速度快,搜索精度高而受到广泛关注。新速度快,搜索精度高而受到广泛关注。
对中文支持不是很好,网页摘要目前还不是动态生成造成用户无法根据摘要选择最想要的结果。

4.5 学术搜索引擎介绍

4.5.1 google学术搜索(Google Scholar)

(http://scholar.google.com/)

4.5.2 Vascoda

(http://www.vascoda.de/)
Vascoda是一个交叉学科门户网站的原型。它注重特定主题Vascoda是一个交叉学科门户网站的原型。它注重特定主题的聚合,集成了图书馆的收藏、文献数据库和附加的学术内容。

4.5.3 Web result

(http://www.a9.com)

4.5.4 free PDF search

(http://www.pdfgeni.com/)
是一个专门的PDF格式文档搜索引擎,支持多语言,输入你想找的PDF文档,点击搜索即可。在搜索的结果中,点击文搜索即可。在搜索的结果中,点击文搜索(http://search.cnki.net/)

4.5.5 万方数据知识脉络分析

(http://trend.wanfangdata.com.cn/)

4.5.6 CNKI知识服务平台