pycharm中安装scrapy

  1. 顺序下载如下包: 右键 file --> settings --> Project:Spider --> Python Interpreter
    wheel、lxml、Twisted、requests、selenium、scrapy
    pycharm中安装scrapy

  2. Scrapy常用命令
    创建爬虫项目 —— scrapy startproject 项目名
    创建爬虫文件 —— scrapy genspider 爬虫名 域名
    运行爬虫 —— scrapy crawl 爬虫名
    例:
    pycharm中安装scrapy

  3. scrapy项目结构
    Gushi # 项目文件夹
    ├── Gushi # 项目目录
    │ ├── items.py # 定义数据结构 bean
    │ ├── middlewares.py # 中间件
    │ ├── pipelines.py # 数据处理 save 数据清洗
    │ ├── settings.py # 全局配置
    │ └── spiders
    │ ├── shici.py # 爬虫文件
    └── scrapy.cfg # 项目基本配置文件
    pycharm中安装scrapy

  4. scrapy五大框架
    引擎 (Engine) —— 整个框架核心
    调度器 (Scheduler)—— 维护请求队列
    下载器 (Downloader) —— 获取响应对象
    爬虫文件 (Spider) —— 数据解析
    项目管道 (pipeline) —— 数据入库