大数据可视化课程笔记 7

第七章 复杂数据可视化

真实世界与虚拟世界越来越密不可分,移动互联网,物联网等信息的产生和流动瞬息万变,涌现了无数复杂的数据,如视频影像数据,传感器网络数据,社交网络数据,三维时空数据等。
对高维多元数据进行分析的困难如下:
(1) 数据复杂度大大增加。复杂数据包括非结构化数据和从多个数据源采集、整合而成的异构数据,传统单一的可视化方法无法支持对此类复杂数据的分析。
(2) 数据的量级已经超过了单机,甚至小型计算集群处理能力的上限,我们需要采用全新思路来解决这个问题。
(3) 在数据获取和处理过程中,不可避免的会产生数据质量的问题,其中特别需要关注的是数据的不确定性。
(4) 数据快速动态变化,常以流式数据形成存在,对流式数据的实时分析与可视化仍然是亟待解决的问题。
面对以上挑战,对二维和三维数据可以采用一种常规的可视化方法表示,将各属性的值映射到不同的坐标轴,并确定数据点在坐标系中的位置,这样的可视化设计通常被称为散点图,当维度超过三维后,还可以增加视觉编码进行表示,如颜色,大小,形状等,但对更复杂的高维多元数据进行可视化处理时,这种方法仍存在很大的局限。

7.1 高维多元数据在大数据中的应用

  • 高维指数据具有多个独立属性
  • 多元指数据具有多个相关属性

7.1.1 空间映射法

散点图就是一种空间映射法。散点图的本质是将抽象的数据对象映射到二维坐标表示的空间。
若处理的是多元数据,在二维的平面空间中,采用不同的空间映射方法对高维数据进行布局,这些数据的关联以及数据自身的属性在不同位置得到了展示。而整个数据集在空间中的分布则反映了各维度间的关系及数据集的整体特性。

  1. 散点图及散点图矩阵
    散点图矩阵是散点图的扩展。对于N维数据,采用N的平方个散点图逐一表示N个属性之间的两两关系,这些散点图根据它们所表示的厦性,沿横轴和纵轴按一定顺序排列,进而组成一个N乘N的矩阵。
    随着数据维度的不断扩展,所需散点图的数量将呈几何级数的增长,而将过多的散点图显示在有限的屏幕空间中则会极大地降低可视化图表的可读性。因此,目前比较常见的方法就是交互式地选取用户关注的属性数据进行分析和可视化。通过归纳散点图特征,优先显示重要性较高的散点图,也可以在一定程度上缓解空间的局限。
  2. 表格透镜
    表格透镜是对使用表格呈现多元数据方法的扩展,该方法并不直接列出数据在每个维度上的值,而是将这些数据用水平横条或者点来表示。
    表格透镜允许用户对行和列进行排序,用户也可以选择某一个数据对象的实际数值。
  3. 平行坐标
    平行坐标能够在二维空间中显示更高维度的数据,它以平行坐标替代垂直坐标,是一种重要的多元数据可视化分析工具,平行坐标不仅能揭示数据在每个属性上的分布,还可描述相邻两个属性之间的关系。
    平行坐标很难同时表现多个维度间的关系,因为其坐标轴是顺序排列的,不适合于表现非相邻属性之间的关系。
    一般的,交互的选取部分感兴趣的数据对象,并将其高亮显示,是一种常见的解决办法。另外为了便于用户理解个数据维度间的关系,也可更改坐标轴的排列顺序。
  4. 降维
    当数据维度非常高时(如超过50维),我们可通过线性/非线性变换将多元数据投影或嵌入低维空间(通常为二维或三维)中,并保持数据在多元空间中的特征
    降维后得到的数据即可用常规的可视化方法进行信息呈现。

7.1.2 图标法

图标法的典型代表是星形图,也称雷达图.
星形图可以看成平行坐标的极坐标形式,数据对象的各属性值与各属性最大值的比例决定了每个坐标轴上的点的位置,将这些坐标轴上的点折线连接围成一个星形区域,其大小形状则反映了数据对象的属性。

7.2 非结构化数据可视化

7.2.1 基于并行的大尺度数据高分辨率可视化

异构数据是指在同一个数据集中存在的如结构或者属性不同的数据。存在多个不同种类节点和连接的网络被称为异构网络。异构数据通常可采用网络结构进行表达。
产生数据的异构性的主要原因是数据源的获取方式的不同。
全方位显示大尺度数据的所有细节是一个计算密集型的过程,处理大尺度数据的基本技术路线就是构建大规模计算集群。
大尺度数据可视化一般有两种方法:

  1. 采用层次结构对大尺度数据进行重新组织;
  2. 将高精度的数据采样成分辨率较低的数据,在既定分辨率的视图里实现预览式的可视化。

使用多窗口的高效多视图来对数据库进行可祖化从理的主要步骤如下:
(1)根据不同的需求将大尺度复杂数据划分为数据子集;
(2)对每个数据子集进行分析,得出符合用户感知的可视化结果;
(3)对从各个不同角度形成的可视化视图采取数据库的架构方式进行存储与管理;
(4)针对不同的可视化视图,为用户提供敏捷的交互工具,并且实现多视图同步无缝更新。

7.2.2 分而治之的大尺度数据分析与可视化

  1. 统计分析层的分而重组
    1. 条件变量分割法
      一部分变量被选为条件变量,并且被分配到每个子集里。BSV( Between Subset-Variables)在不同子集中的取值各异,且一个子集在同一时间只能有一个BSV变量; WSV(Within-Subset Variables)则在同一个子集里取值。通过分析WSV伴随BSV的变化以及 WSV之间的关系来确保分割的准确性。
    2. 重复分割法
      重合算法包括统计重合法、分析重合法以及可视化重合法。
      统计重合,也就是合成各个子集的统计值;
      分析重合法主要是观察、分析和评估计算结果。
  2. 数据挖掘层的分而治之
    首先,输入数据或者文本信息,将输入数据等份成n份或者按规则划分;
    然后,对每份数据使用最合适的分类器进行分类,并将分类结果融合;
    最后,通过一个强分类器计算获取最终结果。
  3. 数据可视化的分而治之
    标准的科学计算数据的并行可视化可采用计算密集型的超级计算机、计算集群和GPU集群等模式。Hadoop和 MapReduce等处理框架通常被用来处理非空间型数据,MapReduce框架应用于科学计算的空间型数据,意味着使用统一的分而治之的框架可以处理科学计算的空间型数据非结构化数据

7.3 数据不确定性可视化

目前存在的问题:

  1. 如何清晰地表示不确定性
  2. 如何降低或避免因不确定性可视化所带来的视觉混淆
  3. 如何降低不确定性可视化所引起的对确定性数据可视化结果的负面影响
  4. 不确定性表达的可视隐喻

7.3.1 不确定性的来源

  • 数据的收集、处理和课程的过程都会产生不确定性。

7.3.2 不确定性的可视化方法

  1. 图表法
  • 图标法比较常见的方法有误差条、盒须图以及流场雷达图等。
  • 盒须图又称箱线图。五数统计图是一种最基本的盒须图,它包括上下边缘值(即最大值和最小值)、上四分位数、中位数和下四分位数,编码了数据最基本的统计特征。
  1. 几何体表示法
    首先,将原始数据转换为一个概率场
    然后,设计传输函数或颜色映射对概率场进行颜色和透明度编码
    最后,通过体绘制或者混合多个等值面的方式实现不确定性可视化。
  2. 视觉元素编码法
    以视觉元素作为不确定性编码的基本载体是众多不确定性可视化方法的基本思想。
    基本的视觉标量包括位置、形状、亮度、颜色、方向和纹理等。
    在实际问题中,要合适的视觉元素对不确定性进行编码。
  3. 动画表达法
    在人类视觉系统的处理过程中,运动具有极高的处理优先级。
    众多动画相关参数都可用于编码不确定性,如速度、时间单位、关键帧、闪烁、运动范围等。
    动画表达法的基本思想是将不确定性隐式地编码于一个与时间有关的函数中。其中,可用不确定性函数u(t)来表示t时刻的动画关键帧的可视化结果。
    大数据可视化课程笔记 7