Python数据分析与挖掘实战(开发流程及常用库安装)
本人新书《玩转Python网络爬虫》,可在天猫、京东等商城搜索查阅或通过右侧图书链接购买,项目深入浅出,适合爬虫初学者或者是已经有一些网络爬虫编写经验,但希望更加全面、深入理解Python爬虫的开发人员。
操作系统:Windows
Python:3.5
欢迎加入学习交流QQ群:657341423
Python数据分析与挖掘主要流程如图:
基本上做一个数据分析,大致的流程都是这样的。最后根据模型说明进行相关的事务决策。
这里简单说一下数据采集,如果数据来源是来自于数据库,直接获取数据库数据即可。如果是源于网站上的数据,这个可以实现爬虫方式爬取数据。基本上数据采集来源都是这2部分的比较多。这里就不做详细的说明。
后续会详细解说后面的流程。
这里用到的库有:numpy,scipy,scikit_learn,statsmodels,pandas,matplotlib,gensim
这个用图片说明作用:
这里就不安装Keras了,这个在Windows下体验不理想。
常用库的安装就比较简单,直接用pip install 安装即可完成。安装顺序最好安装上面的顺序,其中一定要安装numpy再安装scipy。
pandas需要频繁的写入和写出,这里还需要安装
pip install xlrd #读取excel功能
pip install xlwt #写入excel功能
其中还有其他库的延伸,比如图片处理的Pillow,视频的处理opencv,高精度运算GMPY2。