1.爬虫前奏——了解html&什么是爬虫

众所周知:我们上网浏览的网页,他们的本质是一个又一个html页面。那什么是html呢?可以这么理解,编写JAVA有JAVA的语言逻辑,编写Python有Python的语言逻辑,编写网页就需要遵从html的语言逻辑,而编写好了的html就可以显示出来我们所看到的网页了。

如下示例:

1.爬虫前奏——了解html&什么是爬虫
图1
1.爬虫前奏——了解html&什么是爬虫
图2

正如我们在上面所看到的,当我们查看https://www.baidu.com/这个网址的时候,浏览器返回一个网页,我们可以检查这个网页的html源码。(我们看到的图1就是由图2的html源码构成)换句话说,只要我们获取了任意网页的html源码,那么就能够显示出这样的页面,而网页的页面里面的所有信息均包含在html源码里面。那如何证实这一点呢?

我们可以看到:在百度页面里面是有新闻、hao123、地图、视频、贴吧、学术等等内容的,这个我们是可以在html源码里面找到的,这就证实了网页是由html源码进行编写的。

1.爬虫前奏——了解html&什么是爬虫

现在我们达成第一点共识:网页由html源码构成,并且html源码包含了网页页面的所有内容。

在达成第一点共识之后,爬虫的问题就变得比较简单了,我们用一句比较简单的话来阐述爬虫:在html页面上按照一定规则取出我们想要的数据

如何理解呢?比如说百度页面,我们可以看到新闻、hao123、地图、视频、贴吧、学术等等内容,如果我们想要仅仅把这些文字给提取出来,其他的内容都不要,这个想法也就符合了我们所说的爬虫,接下来我们只需要利用我们的一些技术方法(规则)爬取就行了,这个就是爬虫了,但是这个爬取下来的含金量很低而已,不过不要灰心,有1才有2。

再举一个例子:比如豆瓣的影评数据,这个就比较有价值了。我们进入豆瓣的这个影评:https://movie.douban.com/review/9593388/

1.爬虫前奏——了解html&什么是爬虫

1.爬虫前奏——了解html&什么是爬虫

我们同样可以发现在这个页面内嵌套了所有的影评数据,当然还有一些其他数据,(实际上还有电影名、评论人、电影星级等等信息)在这里我们并没有展示。对于这样一个页面,我们就可以利用一定的规则来提取该页面的任意信息,OK,这就是爬虫了。

最后,留下一个思考题:我花费这么大力气去html页面提取信息干什么?我还不如直接打开原始页面进行复制粘贴呢,这不是一样的吗?