linux中爬虫框架scrapy的快速安装及搭建(二)
在pycharm中导入虚拟环境file->settings->interpreter->add,
找到自己搭建的环境
在pycharm中编写爬虫程序,strat_urls中填写爬虫网站
编写命令行,调试scrapy,创建main函数,代码如下:
from scrapy.cmdline import execute
import sys
import os
print(os.path.dirname(os.path.abspath(__file__)))
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy","crawl","jobbole"])
查看scrapy的爬虫文件路径
在爬虫文件中设置断点,检查start_urls是否启动成功
设置settings.py中的ROBOTSTXT协议,防止爬虫中因为读取协议少爬很多数据
运行main.py文件,结果如下,证明scrapy启动成功