python 爬虫第一天

1.爬虫框架安装
如果直接用Requests Selenium 等库写爬虫,爬取量不是太大,速度要求不高是可以的
我们可以用爬虫框架:pyspider 和scrapy
pyspider 是国人binux编写的强大网络爬虫框架,带有强大的webUI 脚本编辑器 任务监听器,项目管理器及结果处理器,结果支持多种数据库后端,多种消息队列,。
pyspider 支持JS渲染,依赖于PhantonJS,需安装
安装过程:
pip install pyspider
验证安装完成:
pyspider all
error as following:
**ValueError: Invalid configuration:

  • Deprecated option ‘domaincontroller’: use ‘http_authenticator.domain_controller’ instead.**
    这是WsgiDAV发布了版本 pre-release 3.x导致的,所以只要把版本降下来就好了。
    将wsgidav替换为2.4.1
    •# python -m pip install wsgidav==2.4.1
    然后重新运行:
    pyspider all 运行成功
    验证运行,浏览器输入:localhost:5000
    参考:
    https://blog.****.net/SiHann/article/details/88239892
    2.Scrapy的安装
    依赖的库比较多:Twisted 14.0,Lxml 3.4,pyopenssl 0.14
    1.安装Anaconda
    安装lxml

pip install lxml
安装pyopenSSL
pip install pyOpenSSL
安装Twisted
http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载twisted对应版本的whl文件(如我的Twisted‑17.5.0‑cp36‑cp36m‑win_amd64.whl),cp后面是python版本,amd64代表64位,运行命令:
pip install C:\Users\CR\Downloads\Twisted-17.5.0-cp36-cp36m-win_amd64.whl
其中install后面为下载的whl文件的完整路径名
安装PyWin32
安装Scrapy
pip install scrapy
验证安装成功 ,在命令行输入:scrapy
python 爬虫第一天如果没有安装Twisted,直接安装Scrapy,就会报错。
building ‘twisted.test.raiser’ extension
error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: http://landinghub.visualstudio.com/visual-cpp-build-tools

部署相关库的安装
如果想要大规模抓取爬虫 一定要用到分布式爬虫,对于Scrapy 有一个扩展组件,叫做Scrapyd,只需要安装该组件,即可远程管理scrapy任务,包括部署源码,启动任务和监听任务
还可以用Docker集群部署,将爬虫制作成Docker镜像,只要主机安装了Docker,就可以直接运行爬虫。
后续需要在安装Docker 和Scrapyed 这一页暂时不记录