linux中爬虫框架scrapy的快速安装及搭建(二)

在pycharm中导入虚拟环境file->settings->interpreter->add,
linux中爬虫框架scrapy的快速安装及搭建(二)找到自己搭建的环境
linux中爬虫框架scrapy的快速安装及搭建(二)在pycharm中编写爬虫程序,strat_urls中填写爬虫网站
linux中爬虫框架scrapy的快速安装及搭建(二)编写命令行,调试scrapy,创建main函数,代码如下:

from scrapy.cmdline import execute

import sys
import os

print(os.path.dirname(os.path.abspath(__file__)))
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy","crawl","jobbole"])

查看scrapy的爬虫文件路径
linux中爬虫框架scrapy的快速安装及搭建(二)在爬虫文件中设置断点,检查start_urls是否启动成功
linux中爬虫框架scrapy的快速安装及搭建(二)
设置settings.py中的ROBOTSTXT协议,防止爬虫中因为读取协议少爬很多数据
linux中爬虫框架scrapy的快速安装及搭建(二)
运行main.py文件,结果如下,证明scrapy启动成功
linux中爬虫框架scrapy的快速安装及搭建(二)