如何启动与Scrapy相同格式的多个URL

如何启动与Scrapy相同格式的多个URL

问题描述:

我的Scrapy蜘蛛需要开始使用以下格式提供的网址抓取:如何启动与Scrapy相同格式的多个URL

https://catalog.loc.gov/vwebv/search?searchArg={$variable}&searchCode=GKEY%5E*&searchType=1&limitTo=none&fromYear=&toYear=&limitTo=LOCA%3Dall&limitTo=PLAC%3Dall&limitTo=TYPE%3Dall&limitTo=LANG%3Dall&recCount=1000' 

其中$变量是可以与尽可能多的馈参数值尽可能(甚至可能是1000个可能值)。

我该如何实施?

你可以覆盖start_requests方法是这样的:

def start_requests(self): 
    base_url = 'https://catalog.loc.gov/vwebv/search?...' 
    variables = [...] 
    for variable in variables: 
     url = base_url.format(variable) 
     yield Request(url)