python从入门到放弃篇24（lxml.etree库，urllib.request库，xpath方法）爬取一刀999**页面，并将数据存储到本地计算机中。

今天，因为我们的课设的需要，所以，能者多劳嘛，我自学了爬虫，从此撑起了我们宿舍课设的重担。第一个数据采集（数据获取）。我看书研究了一波，感觉很不错，然后，就用一个小案例跟大家分享一波。

爬取当年的**一刀999游戏网页。

案例网址是：http://tg2.898play.com/z/kf/50/06/?pyx_url=tg-kj7-cq-yd999

闲话不多说，上代码：
python从入门到放弃篇24（lxml.etree库，urllib.request库，xpath方法）爬取一刀999**页面，并将数据存储到本地计算机中。

第一步，先导入lxml，request库
第二步，设置请求报头，设置成浏览器，基本的爬虫对抗反爬手段。
将设置好的url和headers传递给urlopen请求网页，将获取的源代码进行utf-8解码。
然后用xpath进行信息匹配。我们先观察一下网页结构，如下图：
python从入门到放弃篇24（lxml.etree库，urllib.request库，xpath方法）爬取一刀999**页面，并将数据存储到本地计算机中。

我们可以从这张图片明显看出，需要的文本信息在标签a里面，因此，我们需要对标签定位，
提取所有的a标签信息，所以有：
python从入门到放弃篇24（lxml.etree库，urllib.request库，xpath方法）爬取一刀999**页面，并将数据存储到本地计算机中。
因为接下来输出的信息是列表，所以，我们需要对列表遍历，打印输出我们想要看见的信息，而不是列表，所以有：
python从入门到放弃篇24（lxml.etree库，urllib.request库，xpath方法）爬取一刀999**页面，并将数据存储到本地计算机中。
我们先获取列表的长度，然后再遍历列表的长度，就能得到我们想要的结果了。

运行结果：
python从入门到放弃篇24（lxml.etree库，urllib.request库，xpath方法）爬取一刀999**页面，并将数据存储到本地计算机中。
Oh！my雷迪嘎嘎！，这是什么鬼情况？经过仔细检查，发现这个网页的编码方式，不是“UTF-8"所以，我们得去查找它的编码方式，才能解码出来。
python从入门到放弃篇24（lxml.etree库，urllib.request库，xpath方法）爬取一刀999**页面，并将数据存储到本地计算机中。

我们去找到标签head观察，发现里面有一个属性charset=gb2312,说明这是国标"gb2312"编码的网页。因此，就有：
python从入门到放弃篇24（lxml.etree库，urllib.request库，xpath方法）爬取一刀999**页面，并将数据存储到本地计算机中。
变成：

将解码方式修改后，运行结果，如下图：

当然，我们爬到这里，自然得留来纪念一下我们辛苦的成果。所以，要把输出结果存储到本地计算机中。所以有：
python从入门到放弃篇24（lxml.etree库，urllib.request库，xpath方法）爬取一刀999**页面，并将数据存储到本地计算机中。
结果。。

Oh！my godness!我们又忽略了编码问题。。所以有：

但是，我们打开**.txt一看，又蒙了，什么鬼？what ghost？what’s happened?标题没有了。。
python从入门到放弃篇24（lxml.etree库，urllib.request库，xpath方法）爬取一刀999**页面，并将数据存储到本地计算机中。
所以，我们发现问题，

以"w+"覆盖的写模式，导致前面写入的数据丢失。因此，我们后面的文件模式，选择追加模式。
所以有：
首个文件，我们采用写入模式，其余文件采用追加模式"a"写入，就不会覆盖式写入，人为造成数据丢失。
python从入门到放弃篇24（lxml.etree库，urllib.request库，xpath方法）爬取一刀999**页面，并将数据存储到本地计算机中。
结果，very nice！！搞定！！

哇！太爽了鸭！我第一次自己学会了爬虫，看见这么多文本数据，感动得不要不要的，真过瘾。从问题需求，到数据采集，再到网页分析，最后采集数据，保存到本地计算机上。
学习是一个循序渐进的过程，慢慢来，不能急，我看书研究了几个小时，就能爬取文本数据了。我认为我很笨都能学会，聪明如你也一定能行的，相信自己，哦，哦，哦，哦。