Python数据分析之数据分析初识

数据分析

广义的数据分析包括狭义数据分析和数据挖掘
狭义的数据分析是指根据分析目的,采用对比分析、分组分析、交叉分析和回归分析等分析方法,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用,得到一个特征统计量结果的过程。
数据挖掘则是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过应用聚类、分类、回归和关联规则等技术,挖掘潜在价值的过程。


1. 典型的数据分析的流程

1.需求分析:数据分析中的需求分析也是数据分析环节的第一步和最重要的步骤之一,决定了后续的分析的方向、方法。

2.数据获取:数据是数据分析工作的基础,是指根据需求分析的结果提取,收集数据。

3.数据预处理:数据预处理是指对数据进行数据合并,数据清洗,数据变换和数据标准化,数据变换后使得整体数据变为干净整齐,可以直接用于分析建模这一过程的总称。

4.分析与建模:分析与建模是指通过对比分析、分组分析、交叉分析、回归分析等分析方法和聚类、分类、关联规则、智能推荐等模型与算法发现数据中的有价值信息,并得出结论的过程。

5.模型评价与优化:模型评价是指对已经建立的一个或多个模型,根据其模型的类别,使用不同的指标评价其性能优劣的过程。

6.部署:部署是指将通过了正式应用数据分析结果与结论应用至实际生产系统的过程。
Python数据分析之数据分析初识


2. 数据分析的应用

  • 客户分析
  • 营销分析
  • 社交媒体分析
  • 网络安全
  • 设备管理
  • 交通物流分析等

3. 数据分析常用工具

目前主流的数据分析语言有R,Python,MATLAB三种程序语言。
Python数据分析之数据分析初识


4. Python数据分析的优势

Python 数据分析主要包含以下 5 个方面优势:

  • Python语法简单精练,容易上手。
  • Python拥有强大的类库。可只使用Python这一种语言去构建以数据为中心的应用程序。
  • Python功能强大。Python是一个混合体,丰富的工具集使它介于传统的脚本语言和系统语言之间。不仅具备所有脚本语言简单和易用的特点,还提供了编译语言所具有的高级软件工程工具。
  • Python适用于研究和原型构建,同时也适用于构建生产系统。研究人员和工程技术人员使用同一种编程工具,会给企业带来非常显著的组织效益,并降低企业的运营成本。
  • Python是一门胶水语言。Python程序能够以多种方式轻易地与其他语言的组件“粘接”在一起。

5. Python数据分析常用的类库

Python数据分析之数据分析初识
1.NumPy(Numerical Python / Python 科学计算的基础包)
NumPy快速高效的多维数组对象 ndarray。对数组执行元素级的计算以及直接对数组执行数学运算的函数。读写硬盘上基于数组的数据集的工具。线性代数运算、傅里叶变换,以及随机数生成的功能。将 C、C++、Fortran 代码集成到 Python 的工具。

2.Pandas(数据分析核心库)
Pandas提供了一系列能够快速、便捷地处理结构化数据的数据结构和函数。高性能的数组计算功能以及电子表格和关系型数据库(如 SQL)灵活的数据处理功能。复杂精细的索引功能,以便便捷地完成重塑、切片和切块、聚合及选取数据子集等操作。

3.Matplotlib(绘制数据图表的 Python 库)
Matplotlib是Python的2D绘图库,非常适合创建出版物上用的图表。操作比较容易,只需几行代码即可生成直方图、功率谱图、条形图、错误图和散点图等图形。提供了pylab的模块,其中包括了NumPy和pyplot中许多常用的函数,方便用户快速进行计算和绘图。交互式的数据绘图环境,绘制的图表也是交互式的。

4.scikit-learn(数据挖掘和数据分析工具)
sklearn简单有效,可以供用户在各种环境下重复使用。封装了一些常用的算法方法。基本模块主要有数据预处理、模型选择、分类、聚类、数据降维和回归 6 个,在数据量不大的情况下,scikit-learn可以解决大部分问题。

5.IPython(科学计算标准工具集的组成部分):
IPython是一个增强的Python shell,目的是提高编写、测试、调试Python代码的速度。主要用于交互式数据并行处理,是分布式计算的基础架构。提供了一个类似于Mathematica的HTML笔记本,一个基于Qt框架的GUI控制台,具有绘图、多行编辑以及语法高亮显示等功能。
6.Spyder(交互式 Python 语言开发环境)
Spyder提供高级的代码编辑、交互测试和调试等特性。包含数值计算环境。可用于将调试控制台直接集成到图形用户界面的布局中。模仿MATLAB的“工作空间”,可以很方便地观察和修改数组的值。


6. Python数据分析常用的开发工具

Anaconda + PyCharm / Jupyter Notebook .etc


END