使用python爬取租安居客房信息

      最近在租房,看到58、安居客上对租房信息很多看得眼花缭乱对,于是萌生里把这两个网站上的租房信息全部爬取下来的想法;说做就做,原来用C#写了一个爬虫对程序,后来因为此网站字体加密的问题就转python了;之前没有接触过python,只能边看边做,有错误或需要优化对地方还望指点一二。(刚刚开始写有点乱,明天整理下思路和源码再写。。。。)

     编程语言:python3

     房源数据存储:sqlite

     房源图片存储:存放本地文件夹(图片太多了,就先放到文件夹下了)

     爬取网站:安居客租房(https://wx.zu.anjuke.com/?from=navigation)

     难点:字体加密、手势验证(暂时没有解决,只能爬取速度慢点了)

58和安居客是一家的,房源数据都差不多,安居客的字体加密和手势验证都是用的同一套方法,所以本文以安居客的爬取讲解。

1、分析房源列表,获取每个房源的链接

使用python爬取租安居客房信息

    按F12进入源码模式,可以看到html里面每个房源是在一个class="zu-itemmod"的div标签内,链接的地址就是以link开头的地址,所以目前要做的是要获取link后面对网页地址:

使用python爬取租安居客房信息