关于搜索引擎

  提到搜索引擎,不得不说到Google和百度,现如今,搜索引擎主要是通过两种方法来获取网页内容,一个是由爬虫去爬,也就意味着,如果你的网站没有被外部引用,就不会被搜索引擎发现,这也就是友情链接的作用,帮助你的朋友被搜索到;另一个是主动去注册,就是你主动向搜索引擎后台提供你的链接,由它选择将你收录到什么名下。

  在使用爬虫的情况下,你可以设置网站的robots.txt,规定是否允许被爬取,发现一个很有趣儿的事情,比如淘宝网:https://www.taobao.com/robots.txt

       关于搜索引擎

仔细一看,对于百度和Google居然有不一样的权限限制,hhh果真A家和B家是有世仇啊。不过其实限制了也似乎没什么大用,因为看大众点评的限制如下:

关于搜索引擎

但其实用爬虫也是可以爬到数据的,这也就是相当于某种自觉吧。爬虫技术暂时说到这里,但是这里强调一下,有外链,不代表搜索爬虫会来爬取,爬虫爬取了,不代表搜索引擎会收录;搜索引擎收录了,不代表用户可以搜索的到

  下面介绍一个小工具,site:Taobao.com这个可以检查一个网站的被收录数量

关于搜索引擎

当爬虫爬下来这些数据时,搜索引擎要处理的关键就变为了建立如何的索引使得查找速度最大,一般采用倒排索引,即抽出关键字作为索引,然后标注其存在的位置,但是对于中文来说,这其实十分困难,搜索引擎的问题变为了NLP的问题。