pycharm中安装scrapy
-
顺序下载如下包: 右键 file --> settings --> Project:Spider --> Python Interpreter
wheel、lxml、Twisted、requests、selenium、scrapy -
Scrapy常用命令
创建爬虫项目 —— scrapy startproject 项目名
创建爬虫文件 —— scrapy genspider 爬虫名 域名
运行爬虫 —— scrapy crawl 爬虫名
例: -
scrapy项目结构
Gushi # 项目文件夹
├── Gushi # 项目目录
│ ├── items.py # 定义数据结构 bean
│ ├── middlewares.py # 中间件
│ ├── pipelines.py # 数据处理 save 数据清洗
│ ├── settings.py # 全局配置
│ └── spiders
│ ├── shici.py # 爬虫文件
└── scrapy.cfg # 项目基本配置文件 -
scrapy五大框架
引擎 (Engine) —— 整个框架核心
调度器 (Scheduler)—— 维护请求队列
下载器 (Downloader) —— 获取响应对象
爬虫文件 (Spider) —— 数据解析
项目管道 (pipeline) —— 数据入库