关于搜索引擎

提到搜索引擎，不得不说到Google和百度，现如今，搜索引擎主要是通过两种方法来获取网页内容，一个是由爬虫去爬，也就意味着，如果你的网站没有被外部引用，就不会被搜索引擎发现，这也就是友情链接的作用，帮助你的朋友被搜索到；另一个是主动去注册，就是你主动向搜索引擎后台提供你的链接，由它选择将你收录到什么名下。

在使用爬虫的情况下，你可以设置网站的robots.txt，规定是否允许被爬取，发现一个很有趣儿的事情，比如淘宝网：https://www.taobao.com/robots.txt

关于搜索引擎

仔细一看，对于百度和Google居然有不一样的权限限制，hhh果真A家和B家是有世仇啊。不过其实限制了也似乎没什么大用，因为看大众点评的限制如下：

关于搜索引擎

但其实用爬虫也是可以爬到数据的，这也就是相当于某种自觉吧。爬虫技术暂时说到这里，但是这里强调一下，有外链，不代表搜索爬虫会来爬取，爬虫爬取了，不代表搜索引擎会收录;搜索引擎收录了，不代表用户可以搜索的到

下面介绍一个小工具，site:Taobao.com这个可以检查一个网站的被收录数量

关于搜索引擎

当爬虫爬下来这些数据时，搜索引擎要处理的关键就变为了建立如何的索引使得查找速度最大，一般采用倒排索引，即抽出关键字作为索引，然后标注其存在的位置，但是对于中文来说，这其实十分困难，搜索引擎的问题变为了NLP的问题。

相关推荐