python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999**页面,并将数据存储到本地计算机中。

今天,因为我们的课设的需要,所以,能者多劳嘛,我自学了爬虫,从此撑起了我们宿舍课设的重担。第一个数据采集(数据获取)。我看书研究了一波,感觉很不错,然后,就用一个小案例跟大家分享一波。

爬取当年的**一刀999游戏网页。

案例网址是:http://tg2.898play.com/z/kf/50/06/?pyx_url=tg-kj7-cq-yd999

闲话不多说,上代码:
python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999**页面,并将数据存储到本地计算机中。

第一步,先导入lxmlrequest
第二步,设置请求报头,设置成浏览器,基本的爬虫对抗反爬手段。
将设置好的urlheaders传递给urlopen请求网页,将获取的源代码进行utf-8解码。
然后用xpath进行信息匹配。我们先观察一下网页结构,如下图:
python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999**页面,并将数据存储到本地计算机中。

我们可以从这张图片明显看出,需要的文本信息在标签a里面,因此,我们需要对标签定位
提取所有的a标签信息,所以有:
python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999**页面,并将数据存储到本地计算机中。
因为接下来输出的信息是列表,所以,我们需要对列表遍历,打印输出我们想要看见的信息,而不是列表,所以有:
python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999**页面,并将数据存储到本地计算机中。
我们先获取列表的长度,然后再遍历列表的长度,就能得到我们想要的结果了。

运行结果:
python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999**页面,并将数据存储到本地计算机中。
Oh!my雷迪嘎嘎!,这是什么鬼情况?经过仔细检查,发现这个网页的编码方式,不是“UTF-8"所以,我们得去查找它的编码方式,才能解码出来。
python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999**页面,并将数据存储到本地计算机中。

我们去找到标签head观察,发现里面有一个属性charset=gb2312,说明这是国标"gb2312"编码的网页。因此,就有:
python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999**页面,并将数据存储到本地计算机中。
变成:
python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999**页面,并将数据存储到本地计算机中。
将解码方式修改后,运行结果,如下图:
python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999**页面,并将数据存储到本地计算机中。
python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999**页面,并将数据存储到本地计算机中。
python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999**页面,并将数据存储到本地计算机中。
python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999**页面,并将数据存储到本地计算机中。
python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999**页面,并将数据存储到本地计算机中。
python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999**页面,并将数据存储到本地计算机中。
python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999**页面,并将数据存储到本地计算机中。
当然,我们爬到这里,自然得留来纪念一下我们辛苦的成果。所以,要把输出结果存储到本地计算机中。所以有:
python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999**页面,并将数据存储到本地计算机中。
结果。。
python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999**页面,并将数据存储到本地计算机中。
Oh!my godness!我们又忽略了编码问题。。所以有:
python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999**页面,并将数据存储到本地计算机中。
但是,我们打开**.txt一看,又蒙了,什么鬼?what ghostwhat’s happened?标题没有了。。
python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999**页面,并将数据存储到本地计算机中。
所以,我们发现问题,
python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999**页面,并将数据存储到本地计算机中。
以"w+"覆盖的写模式,导致前面写入的数据丢失。因此,我们后面的文件模式,选择追加模式
所以有:
首个文件,我们采用写入模式,其余文件采用追加模式"a"写入,就不会覆盖式写入,人为造成数据丢失。
python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999**页面,并将数据存储到本地计算机中。
结果,very nice!!搞定!!
python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999**页面,并将数据存储到本地计算机中。
哇!太爽了鸭!我第一次自己学会了爬虫,看见这么多文本数据,感动得不要不要的,真过瘾。从问题需求,到数据采集,再到网页分析,最后采集数据,保存到本地计算机上。
学习是一个循序渐进的过程,慢慢来,不能急,我看书研究了几个小时,就能爬取文本数据了。我认为我很笨都能学会,聪明如你也一定能行的,相信自己,哦,哦,哦,哦。

最后,感谢大家前来观看鄙人的文章,文中或有诸多不妥之处,还望指出和海涵。