Python每日一记65>>>python爬取多页、详细页数据的小练习

我们之前爬取得信息都是在一页内,并且只是这层的数据,那么如果我们要爬取多页的、并且要在内层爬取信息怎么办,就是要点进某一个房屋信息再爬取
Python每日一记65>>>python爬取多页、详细页数据的小练习
Python每日一记65>>>python爬取多页、详细页数据的小练习
Python每日一记65>>>python爬取多页、详细页数据的小练习
以上我们便得到了结果。

代码中需要解释的内容:
1、每一页网址的链接
我们单击下一页可以慢慢发现,每一页网址的链接都类似
第一页:http://bj.xiaozhu.com/,,,也可以写成http://bj.xiaozhu.com/search-duanzufang-p1-0/
第二页:http://bj.xiaozhu.com/search-duanzufang-p2-0/
第三页:http://bj.xiaozhu.com/search-duanzufang-p3-0/
这样就为我们有规律的循环提供了可能。这里一共有13页
Python每日一记65>>>python爬取多页、详细页数据的小练习
Python每日一记65>>>python爬取多页、详细页数据的小练习
2、每一个详细页的链接
我们只需要知道select,内应该是什么,在当页-定位到图片上-右键–检查-右键-copy–copy selector
得到以下内容
#page_list > ul > li:nth-child(1) > a > img
而#page_list > ul > li> a 就是我们想要的select()内的内容
但是真正的详细页连接需要我们使用.get(‘href’)方法。
因为标签的文本信息用get_text()方法可以得到,但是url连接在标签的属性信息内,只有通过.get(‘href’)方法得到。
我们可以看下一直接打印得到的结果:
我们发现确实链接就是在‘’href‘’中
Python每日一记65>>>python爬取多页、详细页数据的小练习
好了以上就是两点特别需要注意的地方,当然了,我们也可以将多个结果装在一个字典中,更加清楚的表现出来,也可以先写进pandas的Dateframe中,然后再导出到excel,这里就不再多家叙述了,感兴趣的可以自行实验。