linux中爬虫框架scrapy的快速安装及搭建(二)

在pycharm中导入虚拟环境file->settings->interpreter->add,
linux中爬虫框架scrapy的快速安装及搭建(二) 找到自己搭建的环境
在pycharm中编写爬虫程序，strat_urls中填写爬虫网站
编写命令行，调试scrapy，创建main函数，代码如下：

from scrapy.cmdline import execute

import sys
import os

print(os.path.dirname(os.path.abspath(__file__)))
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy","crawl","jobbole"])

查看scrapy的爬虫文件路径
linux中爬虫框架scrapy的快速安装及搭建(二) 在爬虫文件中设置断点，检查start_urls是否启动成功

设置settings.py中的ROBOTSTXT协议，防止爬虫中因为读取协议少爬很多数据

运行main.py文件，结果如下，证明scrapy启动成功

linux中爬虫框架scrapy的快速安装及搭建(二)

相关推荐