【python数据分析+实战】【1】Python语言及工作环境准备
一、数据分析
-----定义:
• 用适当的统计分析方法对收集来的大量数据进行分析
• 提取有用信息和形成结论
• 对数据加以详细研究和概括总结
-----目的:
从数据中挖掘规律、验证猜想、进行预测
------涉及的能力:
• 计算机知识
编程能力、量化操作、算法思想…
• 数学和统计知识
常见的分布、最小二乘法…
• 行业知识
业务场景、专业知识…
二、数据科学家之路
http://nirvacana.com/thoughts/2013/07/08/becoming-a-data-scientist/
三、数据分析的基本步骤
明确目的
为什么要开展数据分析?
• 通过数据分析要解决什么问题?
• 需要从哪些角度进行分析?
• 需要采用哪些分析指标 / 方法?
数据获取
• 本地数据的采集与操作
• 网络数据的获取与表示
• 常用的数据获取途径:
公开数据库、 自有数据库、调查问卷、客户数据
数据解析
定义:把杂乱无章的数据处理成有一定结构、整洁的数据的过程,如数据清洗
会使用:
• NumPy和SciP
• 数据分析工具Pandas基础
数据分析
• 数据分析工具Pandas高阶
• 数据分析工具Pandas基础
结果呈现
• 数据可视化
• 机器学习简单介绍
四、数据类型
数值型,如:长度、宽度、评分…
• 方法:极值和分位点、均值和标准差、变量间相关性…
有序型,如:等级(A, B, C ),空气质量(优、良、轻度污染、中度污
染、重度污染、严重污染) …
类别型,如:性别(男、女),手机品牌(Apple、 Vivo、华为…)
• 方法:统计分布、直方图等
噪声数据(脏数据) ,如:缺失值、重复值、无效数据等
• 方法:数据清洗,统计分布等
五、环境部署
安装Anaconda
• Anaconda是Python的一个科学计算发行版,内置了数百个Python经常会使用
的库,包括做机器学习或数据挖掘的库
• Anaconda提供了一个编译好的环境可以直接安装
• 下载地址:
• 官网最新版: https://www.anaconda.com/download/
• 官网存档: https://repo.continuum.io/archive/
• 国内镜像: https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
• 版本选择:包含Pyhton3.6版本的Anaconda (Anaconda3-5.1.0)
• 注意: Anaconda版本和Python版本不一样!
win10:
Mac安装
Linux安装
管理Python包
• 安装: conda install xxx, pip install xxx
• 卸载: conda uninstall xxx, pip uninstall xxx
• 升级: conda update xxx, pip install --upgrade xxx
安装PyCharm社区版
安装后再配置,配置解释器,目的:将PyCharm与Python环境连接起来
• Windows安装Pycharm
• Mac安装PyCharm
配置解释器
• Linux安装PyCharm
解压下载的. tar.gz文件到自定义的目录
定位到PyCharm的bin目录中,打开终端运行./pycharm.sh