1.爬虫前奏——了解html&什么是爬虫

众所周知：我们上网浏览的网页，他们的本质是一个又一个html页面。那什么是html呢？可以这么理解，编写JAVA有JAVA的语言逻辑，编写Python有Python的语言逻辑，编写网页就需要遵从html的语言逻辑，而编写好了的html就可以显示出来我们所看到的网页了。

如下示例：

正如我们在上面所看到的，当我们查看https://www.baidu.com/这个网址的时候，浏览器返回一个网页，我们可以检查这个网页的html源码。（我们看到的图1就是由图2的html源码构成）换句话说，只要我们获取了任意网页的html源码，那么就能够显示出这样的页面，而网页的页面里面的所有信息均包含在html源码里面。那如何证实这一点呢？

我们可以看到：在百度页面里面是有新闻、hao123、地图、视频、贴吧、学术等等内容的，这个我们是可以在html源码里面找到的，这就证实了网页是由html源码进行编写的。

1.爬虫前奏——了解html&什么是爬虫

现在我们达成第一点共识：网页由html源码构成，并且html源码包含了网页页面的所有内容。

在达成第一点共识之后，爬虫的问题就变得比较简单了，我们用一句比较简单的话来阐述爬虫：在html页面上按照一定规则取出我们想要的数据。

如何理解呢？比如说百度页面，我们可以看到新闻、hao123、地图、视频、贴吧、学术等等内容，如果我们想要仅仅把这些文字给提取出来，其他的内容都不要，这个想法也就符合了我们所说的爬虫，接下来我们只需要利用我们的一些技术方法(规则)爬取就行了，这个就是爬虫了，但是这个爬取下来的含金量很低而已，不过不要灰心，有1才有2。

再举一个例子：比如豆瓣的影评数据，这个就比较有价值了。我们进入豆瓣的这个影评：https://movie.douban.com/review/9593388/

1.爬虫前奏——了解html&什么是爬虫

我们同样可以发现在这个页面内嵌套了所有的影评数据，当然还有一些其他数据，(实际上还有电影名、评论人、电影星级等等信息)在这里我们并没有展示。对于这样一个页面，我们就可以利用一定的规则来提取该页面的任意信息，OK，这就是爬虫了。

最后，留下一个思考题：我花费这么大力气去html页面提取信息干什么？我还不如直接打开原始页面进行复制粘贴呢，这不是一样的吗？

1.爬虫前奏——了解html&什么是爬虫

相关推荐