一个最简单的入门爬虫,带你进“网”

前言

本节为大家带来一个最简单的Python爬虫项目,相信大家可以看懂的。从0到1的过程详细写出来,希望能帮助到大家

小说网站的基本结构

首页(总目录)→分类→小说目录页→小说各章节;

与网站的交互

通常都是用户通过浏览器(当IE)访问网站(网络上的服务器)。

浏览器:网址(href)、请求(requests)→网站服务器:响应(response)给浏览器→浏览器:缓存并呈现回复的内容。
一个最简单的入门爬虫,带你进“网”
添加第三方模块

第三方模块添加工具pip必须在安装python3.5时有勾选安装。

编辑或新建C:Userswwuhnwu01pippip.ini:
一个最简单的入门爬虫,带你进“网”
pycharm→文件→setting→project interpreter→pip→右边加号+→manage repositories→右边加号+→添加第三方模块的镜像服务器http://pypi.douban.com/和http://pypi.douban.com/simple

一个简单的网络爬虫

新建项目

设置项目编译器

基本的思路:

进入一个小说的目录页,请求到目录(包括各章节的href和章节标题)的内容,提取到全部的href,再通过各href请求到各网页的内容,经过数据清洗和适当的回到,写入到一个文本文件

代码
一个最简单的入门爬虫,带你进“网”
一个最简单的入门爬虫,带你进“网”
以上代码运行后,即可把整部小说的内容写入文本文件。

不同的网站,内面内容的写法会有差别,在提取数据和清洗数据时要做相应调整变化。

一些网站会禁止爬虫,当你尝试爬取网站资源时,一些网站会有反爬策略,将你的IP加入黑名单,当你爬取或访问时,页面会响应为:“HTTP Error 403: Forbidden错误”。

小编推荐一个学python的学习qun 740,3222,34
无论你是大牛还是小白,是想转行还是想入行都可以来了解一起进步一起学习!裙内有开发工具,很多干货和技术资料分享!

一个最简单的入门爬虫,带你进“网”