Scrapy框架编写流程

1、scrapy startproject XXXXX //创建项目，XXXXX代表你项目的名字

2、创建好项目后，目录结构：

Scrapy笔记

3、Scrapy默认是不能在IDE中调试的，我们在根目录中新建一个py文件叫：entrypoint.py；在里面写入以下内容：

#coding:utf8
from scrapy.cmdlineimport execute
#前两个参数是不变的，第三个参数请使用自己的spider的名字
execute(['scrapy', 'crawl', 'dingdian'])

4、编写Item，定义爬取字段

import scrapy

class DingdianItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    name = scrapy.Field();
    author = scrapy.Field();
    novelurl = scrapy.Field();

5、编写Spider

# encoding=utf8
import sys
reload(sys)
sys.setdefaultencoding('utf8')
import scrapy
from lxmlimport etree
from scrapy.httpimport Request
from FirstDemo.itemsimport DingdianItem

class MySpider(scrapy.Spider):

    name = 'dingdian'
    allowed_domains= ['23wx.cc']
    bash_url = 'http://www.23wx.cc/class/'
    bashurl= '.html'

    defstart_requests(self):
        for i in range(1,11):
            # 小说类别分类地址为：http://www.23wx.cc/class/1_1.html
            url = self.bash_url+str(i)+'_1'+self.bashurl
            # yield Request，请求新的URL，后面跟的是回调函数，你需要哪一个函数来处理
            # 这个返回值，返回值会以参数的形式传递给你所调用的函数。
            yield Request(url,self.parse)

    defparse(self, response):
        selector =etree.HTML(response.text)
        lis = selector.xpath('//div[@class="l"]//li/span[@class="s2"]')#BeautifulSoup(response.text,'lxml').find_all('li')
        for li in lis:
            novelname = li.xpath('a/text()')[0]
            novelurl = "http://www.23wx.cc"+li.xpath('a/@href')[0]
            yieldRequest(novelurl,callback=self.get_chapterurl,meta={'name':novelname,'url':novelurl})

    defget_chapterurl(self,response):
        item = DingdianItem()
        item['name'] = str(response.meta['name'])
        item['novelurl'] = response.meta['url']
        author =etree.HTML(response.text).xpath('//div[@id="info"]/p/text()')[0].replace('作    者：','')
        item['author'] = author
        yield item

6、编写pipelines，处理返回的item

from FirstDemo.items import DingdianItem

class FirstdemoPipeline(object):
    count = 0
    def process_item(self, item, spider):
        if isinstance(item,DingdianItem):
            FirstdemoPipeline.count+=1
            item['_id'] = FirstdemoPipeline.count
            print item['_id'],item['name'],item['author'],item['novelurl']

7、编写setting，启用这个Pipeline在settings中作如下设置：

ITEM_PIPELINES = {
   'FirstDemo.pipelines.FirstdemoPipeline': 300,
}

其中，PS: FirstDemo（项目目录）.pipelines（pipelines文件，也可以自己建立一个单独的文件夹下的pipelines文件）. FirstdemoPipeline（其中定义的类）后面的 300是优先级程度（1-1000随意设置，数值越低，组件的优先级越高）。

Scrapy中多个pipeline时需要在setting中设置数字，如：

ITEM_PIPELINES = {
   #数字代表执行的先后顺序，每个pipeline都要return item
   'FirstDemo.pipelines.FirstdemoPipeline': 300,
   'FirstDemo.pipelines.AnothordemoPipeline': 400,
}

数字代表执行的先后顺序（小的先执行，一般1-1000）。每个pipeline都要return item。

Xpath语法

在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档节点（或称为根节点）。

XML 实例文档

我们将在下面的例子中使用这个 XML 文档。

<?xml version="1.0"encoding="ISO-8859-1"?>

<book>

<title lang="eng">HarryPotter</title>

</book>

<book>

<title lang="eng">LearningXML</title>

</book>

</bookstore>

选取节点

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

下面列出了最有用的路径表达式：

表达式	描述
nodename	选取此节点的所有子节点。
/	从根节点选取。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.	选取当前节点。
..	选取当前节点的父节点。
@	选取属性。

实例

在下面的表格中，我们已列出了一些路径表达式以及表达式的结果：

路径表达式	结果
bookstore	选取 bookstore 元素的所有子节点。
/bookstore	选取根元素 bookstore。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！
bookstore/book	选取属于 bookstore 的子元素的所有 book 元素。
//book	选取所有 book 子元素，而不管它们在文档中的位置。
bookstore//book	选择属于 bookstore 元素的后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置。
//@lang	选取名为 lang 的所有属性。

谓语（Predicates）

谓语用来查找某个特定的节点或者包含某个指定的值的节点。

谓语被嵌在方括号中。

实例

在下面的表格中，我们列出了带有谓语的一些路径表达式，以及表达式的结果：

路径表达式	结果
/bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()]	选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1]	选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()<3]	选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang]	选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang='eng']	选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00]	选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]/title	选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

选取未知节点

XPath 通配符可用来选取未知的 XML 元素。

通配符	描述
*	匹配任何元素节点。
@*	匹配任何属性节点。
node()	匹配任何类型的节点。

实例

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

路径表达式	结果
/bookstore/*	选取 bookstore 元素的所有子元素。
//*	选取文档中的所有元素。
//title[@*]	选取所有带有属性的 title 元素。

选取若干路径

通过在路径表达式中使用“|”运算符，您可以选取若干个路径。

实例

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

路径表达式	结果
//book/title \| //book/price	选取 book 元素的所有 title 和 price 元素。
//title \| //price	选取文档中的所有 title 和 price 元素。
/bookstore/book/title \| //price	选取属于 bookstore 元素的 book 元素的所有 title 元素，以及文档中所有的 price 元素。

调试页面解析的xpath

可以通过：

scrapy shell http://quotes.toscrape.com/page/1/，进行调试

>>> response.xpath('//title')

[<Selector xpath='//title' data='<title>Quotes toScrape</title>'>]

>>> response.xpath('//title/text()').extract_first()

'Quotes to Scrape'

也可以写个小脚本：

import urllib
from lxml import etree

url = 'http://www.23wx.cc/du/81/81809/'
response=urllib.urlopen(url).read()

print etree.HTML(response).xpath('//div[@id="info"]/p/text()')[0]

当然还有Chrome浏览器的Xpath Helper插件神器，很好用！！！同样Chrome浏览器可以通过检查查看元素，然后在element中右键Copy，Copy XPath可以获得该元素的XPath表达式，稍微修改一下可以获得同类的所有元素，强无敌！

Scrapy笔记

Scrapy框架编写流程

Xpath语法

调试页面解析的xpath

相关推荐