Python网络爬虫（五）：爬虫原理总结

爬虫的工作原理：

简单地说，就是爬虫程序模拟浏览器访问web服务器，从而获得自己感兴趣的内容的过程。

这里需要了解一下网站的工作原理。

1.基本结构

Web采用的是客户机--服务器架构。

客户端（Client）可以通过网络连接访问另一台计算机的资源或服务，而提供资源或服务的计算机就叫服务器（Server）。

比如你通过电脑上的搜狗浏览器访问一个网站www.baidu.com，在这里浏览器就是客户端，网址www.baidu.com所对应的ip的主机就是服务器。

通常所说的web客户端指的就是电脑上安装的各种浏览器，web服务器则指的是分别在世界各地的主机。

Python网络爬虫（五）：爬虫原理总结

2.一个web网站的搭建

一个网站=服务器+域名+网站程序和资源

要搭建一个网站，你需要准备好我上面提到的这三部分：

服务器，用来存放网站程序并让网站程序正常运转，可以理解为连接在互联网上的一台24小时都在运转的计算机，这台计算机的IP一般是固定的（当然也有通过软件来实现用动态IP做服务器的，此处暂且不论），这样互联网上的其他用户才能准确找到服务器上的资源。
域名，因为IP比较难记，所以使用域名来解析指向服务器IP，服务器那边再绑定域名，这样就可以通过易于记忆的域名来访问服务器上的资源了.域名可以在域名注册商网站注册使用。如http://zhihu.com是在域名注册商http://godaddy.com处注册的。
网站程序，就是要实现一个网站功能所需要的程序和资源的集合. 网站程序和资源是存放于服务器硬盘上的。

举例说明：例如要搭建http://zhihu.com这个网站，那么需要以下步骤：

购买一台服务器（小网站的话也可以使用虚拟主机或VPS），配置好服务器信息；
开发好网站程序，将网站程序上传到服务器，配置好数据库连接等信息；
到域名注册商网站注册http://zhihu.com这个域名（如果域名已经被别人注册了而你又很想要那可以花钱联系域名持有人买下来），将域名解析到服务器IP，OK，这样一个http://zhihu.com网站就搭建好了，下一步就是宣传运营吧。

这里我总结一下：