Python开发环境详细配置Anaconda+请求库+解析库+数据库+存储库+web库+爬虫框架+部署库---Windows篇
首先是一些链接
Python官网
Python官网下载地址
第三方库
官方文档
中文教程
了不起的Python
安装方式有两种
首选anaconda安装,它集成了Python的科学计算环境和常用库,后面环境配置更加简便
另一种是下载安装包标准安装,百度有步骤,很简单
1.Anaconda安装
下载链接
下载3.6版本的就可以了
然后下一步
这个可以让anaconda的Python3.6作为系统认可的Python3.6
pycharm等软件可以直接使用anaconda的Python3.6
然后运行图形界面
在anaconda安装路径中添加Python3(就是复制Python)
添加系统变量
高级系统设置–>环境变量–>系统变量path编辑
添加anaconda路径,添加anaconda/scripts路径
2.请求库的安装
1.requests库的安装
若是anaconda安装,这些库已经存在
2.selenium库的安装
3.Chromedriver的安装
首先下载Chrome浏览器
帮助,关于Google Chrome,记住版本号
打开Chromedriver官网,下载
官网
下载速度问题可以去找镜像站
下载完成后,将其可执行文件添加到环境变量中,
或直接复制到python的scripts文件夹中
开启端口后,在代码中可以正常调用
4.GeckoDriver库的安装
同上,这个库对应的火狐浏览器的驱动
首先正确安装火狐浏览器,记住版本号
同理,将其复制到python/scripts目录下
验证使用
5.PhantomJS无界面的浏览器安装
PhantomJS是一个无界面的,可脚本编程的WebKit浏览器引擎,它原生支持多种Web标准,DOM操作,CSS选择器,JSON,Canvas,SVG。
依然将其复制到python的scripts目录下
命令行可以直接调用
selenium 不好好支持 phantomJS了,以后用到再看能否正常爬取
6.aiohttp库的安装
requests库是一个阻塞式HTTP请求库,当我们发出一个请求后,程序会一直等待服务器响应,直到得到响应后,程序才会进行下一步处理。其实,这个过程比较耗费时间。如果程序可以在这个等待过程中做一些其他的事情,如进行请求的调度,响应的处理,那么爬取效率一定会大大提高。
aioHTTP就是一个这样的提供异步web服务的库
aiohttp的异步操作借助于 async/await 的关键字的写法变得更加简洁,架构更加清晰。使用异步请求库进行数据抓取时,会大大提高效率。
另外,官方还推荐了两个库,一个是字符编码检测库,cchardet
另一个是加速DNS的解析库,aiodns.
测试
3.解析库的安装
1.lxml库的安装
anaconda自带,否则,pip安装即可
2.beautifulsoup库的安装
没有的话pip安装即可
3.pyquery库的安装
4.tesserocr库的安装–OCR识别验证码
识别这张图片
识别中文目前会乱码,可能没有语料库
pip 安装出错了,于是百度,采用conda安装,成功
测试
4.数据库的安装
1.MYSQL数据库的安装
较为简单的方法是下载phpstudy
里面集成了MySQL数据库,开启关闭管理都很方便
且集成PHPmyadmin网页管理
2.MongoDB数据库的安装
将bin目录放到系统变量中
3.Redis数据库的安装
安装Redis 桌面管理工具
5.存储库的安装
1.pymysql
2.pymongo
3.redis-py
4.redis-dump的安装
Redis-dump是一个用于Redis数据库导入导出的工具,是基于ruby实现的
第一步,安装ruby
ruby下载地址
翻墙下载吧孩子们
各凭本事
6.web库的安装
1.flask安装
anaconda自带,但是例子调用有错误,用时再搞
2.tornado安装
依然
7.APP爬取库的相关安装
这部分用到再进行安装吧
8.爬虫框架的安装
1.pyspider框架的安装
运行
可以直接浏览器打开
2.Scrapy框架的安装
3.scrapy-splash
pass
4.scrapy-redis
9.部署相关库的安装
1.docker
安装失败,还是Linux用吧
2.scrapyd安装
3.scrapyd-client安装