【DCIC】数据分析学习:0.准备工作

学习主题

比赛链接:https://data.xm.gov.cn/opendata-competition/index.html#/

算法分析真实场景:A城市巡游⻋与网约⻋运营特征对比分析

【DCIC】数据分析学习:0.准备工作

赛题简介:参赛方需依据平台提供的出租⻋(包括巡游⻋和网约⻋)GPS和订单数据, 对出租⻋运行的时间、空间分布特征进行量化计算 。并根据出租⻋的时空运营特征,对巡游⻋与网约⻋的融合发展提出相关建议。

赛题说明:出租车作为城市客运交通系统的重要组成部分,以高效、便捷、灵活等优点深受居民青睐。出租车每天的运营中会产生大量的上下车点位相关信息,对这些数据进行科学合理的关联和挖掘,对比在工作日以及休息日、节假日的出租车数据的空间分布及其动态变化,对出租车候车泊位、管理调度和居民通勤特征的研究具有重要意义。

赛题任务:

参赛者需依据赛事方提供的出租车(包括巡游车和网约车)GPS和订单数据

  1. 综合应用统计分析方法分别对所提供的巡游车和网约车运营的时间、空间分布特征进行量化计算,包括计算2年的每年工作日取日平均,非工作日取日平均和节假日取日平均,三种类型各自平均的时变分布变化,三种时间类型按网格划分的平均空间分布(网格划分颗粒度选手自选),并分别对比分析所提供的网约车、巡游车,计算2年每年按工作日取日平均,非工作日取日平均和节假日取日平均三种类型的日均空驶率、订单平均运距、订单平均运行时长、上下客点分布密度等时变特性;
  2. 根据巡游车和网约车的时空运营特征,并尝试对巡游车与网约车的融合发展提出相关建议。在分析过程,参赛者必须用到但不局限于提供的数据,可自行加入自有数据进行参赛,但需说明自带数据来源并保证数据合法合规使用。

学习目标

  • 对数据分析有有一点感性的认知,了解数据分析的用途;
  • 对数据分析中数据处理和可视化软件有初步了解;
  • 理解数据分析的流程和步骤;

数据分析

数据分析介绍

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据也称为观测值,是实验、测量、观察、调查等的结果。在我们日常生活中所有的观测值都是数据,可以拿来进行分析。需要注意的是,数据分析是有目的的、有步骤的和有结果的行为。

数据分析的具体步骤可分为数据处理与统计和数据可视化,在现有的工具中都或多或少包含上述两种功能。对于数据处理与统计,基本上所有可以完成基本计算的软件都可以用来进行统计。

数据统计的关键指标包括:

  • 均值、中位数、众数体现了数据的集中趋势
  • 极差、方差、标准差体现了数据的离散程度
  • 偏度、峰度体现了数据的分布形状

数据分析软件

【DCIC】数据分析学习:0.准备工作

在上述数据分析软件中,RSASSPSSStata在数学领域使用的较多,SQLPyhton在计算机领域使用的较多。在互联网企业SQL和Python是最为常见的数据处理和分析软件。

由于本次赛题的数据字段众多,有经纬度、日期和订单等复杂类型,因此比较建议使用Python软件进行分析,实现起来比较快速。当然如果想使用R或者SQL来做数据处理也是可以的,但可能会更加费事一些。

数据分析与数据类型

我们日常生活中充满了各类数据,也有多种数据类型划分方法:

  • 定性数据与定量数据;
  • 数据类型划分:可将统计数据分为布尔型、类别型、数值型和日期型数据;

不同类型的数据会有不同的数据存储方法和统计方法,也需要不同类型的可视化方法来完成。

数据分析与可视化方法

数据可视化方法有非常多种,具体可以根据数据类型、对比方法和展示方法进行细分:

数据分析流程

【DCIC】数据分析学习:0.准备工作

  1. 明确分析目的和思路;
  2. 收集数据;
  3. 数据统计处理;
  4. 数据分析与可视化;
  5. 报告撰写;

描述型数据分析

描述性数据分析(Descriptive Data Analysis,DDA)属于比较初级的数据分析,常见的分析方法包括对比分析法、平均分析法、交叉分析法等。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。

集中趋势的描述性统计量

  • 均值:是指一组数据的算术平均数,描述一组数据的平均水平,是集中趋势中波动最小、最可靠的指标,但是均值容易受到极端值(极小值或极大值)的影响。
  • 中位数:是指当一组数据按照顺序排列后,位于中间位置的数,不受极端值的影响,对于定序型变量,中位数是最适合的表征集中趋势的指标。
  • 众数:是指一组数据中出现次数最多的观测值,不受极端值的影响,常用于描述定性数据的集中趋势。

离散程度的描述性统计量

  • 最大值最小值:是一组数据中的最大观测值和最小观测值。
  • 极差:又称全距,是一组数据中的最大观测值和最小观测值之差,记作R,一般情况下,极差越大,离散程度越大,其值容易受到极端值的影响。
  • 方差标准差:是描述一组数据离散程度的最常用、最适用的指标,值越大,表明数据的离散程度越大。

分布形态的描述性统计量

  • 偏度:用来评估一组数据的分布呈现的对称程度,当偏度=0时,分布是对称的;当偏度>0时,分布呈正偏态;当偏度<0时,分布呈负偏态。

探索型数据分析

探索性数据分析(Exploratory Data Analysis,EDA)主要的工作是:对数据进行清洗,对数据进行描述(描述统计量,图表),查看数据的分布,比较数据之间的关系,培养对数据的直觉,对数据进行总结等。

探索性数据分析(EDA)与传统统计分析(Classical Analysis)的区别:

  • 传统的统计分析方法通常是先假设样本服从某种分布,然后把数据套入假设模型再做分析。但由于多数数据并不能满足假设的分布,因此,传统统计分析结果常常不能让人满意。
  • 探索性数据分析方法注重数据的真实分布,强调数据的可视化,使分析者能一目了然看出数据中隐含的规律,从而得到启发,以此帮助分析者找到适合数据的模型。“探索性”是指分析者对待解问题的理解会随着研究的深入不断变化。

应用传统统计分析方法的数据分析步骤:

【DCIC】数据分析学习:0.准备工作

应用探索性数据分析方法的数据分析步骤:

【DCIC】数据分析学习:0.准备工作

验证型数据分析

验证型数据分析(Confirmatory Data Analysis, CDA)根据数据样本所提供的证据,肯定还是否定有关总体的声明。

假设验证的基本流程:

  1. 提出零假设(我们希望推翻的结论),及备择假设(我们希望证明的结论)
  2. 在零假设的前提下,推断目前样本统计量出现的概率 *统计量可符合不同分布,即对应不同的检验方法
  3. 设定一个拒绝零假设的阈值(常见5%,及统计学意义“显著”,significant),如果目前样本统计量在零假设下出现的概率小于阈值,则拒绝零假设,承认备择假设。