如何启动与Scrapy相同格式的多个URL
问题描述:
我的Scrapy蜘蛛需要开始使用以下格式提供的网址抓取:如何启动与Scrapy相同格式的多个URL
https://catalog.loc.gov/vwebv/search?searchArg={$variable}&searchCode=GKEY%5E*&searchType=1&limitTo=none&fromYear=&toYear=&limitTo=LOCA%3Dall&limitTo=PLAC%3Dall&limitTo=TYPE%3Dall&limitTo=LANG%3Dall&recCount=1000'
其中$变量是可以与尽可能多的馈参数值尽可能(甚至可能是1000个可能值)。
我该如何实施?
答
你可以覆盖start_requests
方法是这样的:
def start_requests(self):
base_url = 'https://catalog.loc.gov/vwebv/search?...'
variables = [...]
for variable in variables:
url = base_url.format(variable)
yield Request(url)