Python每日一记64>>>beautifulsoup库的使用

之前我们利用requests库已经进行进行了初步的爬取工作,但是我们只是将一堆杂乱的东西进行了抓取,我们真正需要的是对想要的数据进行获取。
因此beautifulsoup库就很有用了,简单理解,这个库就是将抓取的内容进行解析,按照标准的格式结构输出,得到的是结构化数据,为数据的过滤提取做好准备。
我们接下来抓取一个酒店的价格
Python每日一记64>>>beautifulsoup库的使用
Python每日一记64>>>beautifulsoup库的使用
Python每日一记64>>>beautifulsoup库的使用
我们得到了价格580,只是需要说明 ,select里面的内容(很重要!!!!)
Python每日一记64>>>beautifulsoup库的使用
按照上面的步骤,就能得到#page_list > ul > li:nth-child(1) > div.result_btm_con.lodgeunitname > div:nth-child(1) > span > i

如果我们要得到这一页所有酒店的价格
将#page_list > ul > li:nth-child(1) > div.result_btm_con.lodgeunitname > div:nth-child(1) > span > i
改为#page_list > ul > li > div.result_btm_con.lodgeunitname > div:nth-child(1) > span > i
变化的只有一点而已
然后循环打印出来
Python每日一记64>>>beautifulsoup库的使用
Python每日一记64>>>beautifulsoup库的使用
如果我们要打印出价格580,而不是580
用get_text()方法,注意一定要循环时才可以使用,如果单个信息直接用这个方法,会报错。就算是单个,也要循环才能使用这个方法。
Python每日一记64>>>beautifulsoup库的使用
Python每日一记64>>>beautifulsoup库的使用
至此我们就得到了这个页面的所有价格,当然我们还可以得到其他信息,如酒店名称,位置等,只需要在select里更换内容即可,就是在想要抓取信息的地方右键–检查–再copy selector
如下我可以抓取名称
Python每日一记64>>>beautifulsoup库的使用
Python每日一记64>>>beautifulsoup库的使用
上面的信息,我只是改变了select括号内的内容而已。