豆瓣电影影评爬取---最受欢迎的影评[xpath语法]

豆瓣电影影评爬取---最受欢迎的影评[xpath语法]

1.基础环境配置:

requests-->版本:2.12.4

lxml-->版本:3.7.2

豆瓣电影影评爬取---最受欢迎的影评[xpath语法]豆瓣电影影评爬取---最受欢迎的影评[xpath语法]

2.爬取网址:https://movie.douban.com/review/best/?start=0

豆瓣电影影评爬取---最受欢迎的影评[xpath语法]

注意问题:

(1)由于时间的不同,最受欢迎影评可能发生改变,所以爬取到的结果有可能不一致。

(2)该页面仅是第一页,共有20页,所以需要设置翻页。

3.网页分析豆瓣电影影评爬取---最受欢迎的影评[xpath语法]

豆瓣电影影评爬取---最受欢迎的影评[xpath语法]

豆瓣电影影评爬取---最受欢迎的影评[xpath语法]

豆瓣电影影评爬取---最受欢迎的影评[xpath语法]

我们可以根据上面网页中对应的位置进行数据提取。

3.代码编写

【代码太长,在这里提供关键的xpath语法】

豆瓣电影影评爬取---最受欢迎的影评[xpath语法]

4.结果保存:

将提取结果保存在excel里面。

豆瓣电影影评爬取---最受欢迎的影评[xpath语法]