Python爬虫实例--新浪热搜榜

Python爬虫实例--新浪热搜榜

1.基础环境配置:

requests-->版本:2.12.4

lxml-->版本:3.7.2

Python爬虫实例--新浪热搜榜Python爬虫实例--新浪热搜榜

2.网页分析

很容易从html源码中看到,热搜内容在html的<a></a>标签内,热度在<span></span>标签内,我们可以利用这一点用xpath语法进行数据的提取。

Python爬虫实例--新浪热搜榜

3.代码编写Python爬虫实例--新浪热搜榜

Python爬虫实例--新浪热搜榜

4.结果保存:

将提取结果保存在excel里面。

Python爬虫实例--新浪热搜榜

5.爬虫注意事项:

(1)网页分析一定要做好。

(2)一定要设置headers信息,否则容易被反爬虫拦截。

(3)不要频繁爬取同一个网站,你的IP容易被拉到黑名单。