Data Mining with Big Data--阅读笔记

abstract

大数据是指更高速度和更高品种的数据流,有效处理大量数据集的能力已成为广泛的科学和其他学科的组成部分。支持大数据采集所需的基础设施必须在捕获数据和执行简单查询时提供低可预测的延迟。这要求数据结构和语义的差异以计算机可理解的形式表达,然后以“机器人”方式表达。在数据集成,映射和转换方面有着强大的工作。然而,需要大量额外的工作才能实现自动无差错差分解决方案。本文提出了一个关于使用大数据的数据挖掘最新研究的框架。

Introduction

  • 在信息技术世界中,有效处理大量数据集的能力已成为广泛的科学和其他学科的组成部分。
  • 大数据被广泛的定义为由几百万人产生的数千万甚至数亿条的有效信息记录,并存储在整个网络的无数来源中。
  • 大数据使科学家能够克服与小数据样本相关的问题,包括放宽理论模型假设,避免过载拟合模型来训练数据,更好地处理噪声数据,并提供足够的测试数据来验证模型。

Big Data: Opportunities and Challenges

大数据存在的挑战:

  1. 捕获;
  2. 传输;
  3. 存储;
  4. 清理;
  5. 分析;
  6. 过滤;
  7. 检索;
  8. 共享;
  9. 保护;
  10. 可视化等。

虽然存储和检索大数据是主要挑战之一,但这些挑战需要在所需的可扩展性、可用性、性能和安全性之间进行衡量。

大数据主要由其3V的基本特征定义:

  1. Velocity 速度(数据正在快速增长和变化);
  2. Variety 品种(数据来自不同的和多种格式);
  3. Volume 容量(每秒产生巨大的数据量)。

传统的搜索方法类似于盲人摸象,将不同人从不同角度感知到的信息整合起来,以获得整个数据的完整信息。

传统的搜索方法不适应分布式环境和大数据复杂度。

企业需要通过大量非结构化和结构化的数据集来运行广泛的实时查询。这种需求导致基于适当的搜索和索引技术的可扩展搜索引擎的发展。

Literature Survey

  • Xindong Wu等[2]设计了一个表征大数据特征的HACE (Heterogeneous, Autonomous, Complex and Evolving) theorem,并从数据挖掘的角度提出了一个大数据处理模型。该模型包括需求驱动的信息源、挖掘和分析的汇总。总体而言,它清楚地分析了数据驱动模型中的挑战性问题。但它缺乏对任何数据集的测试和性能评估。
  • Matthew Herland等[4]提出了使用大数据工具和方法来分析在多个级别收集的健康信息学数据,包括分子,组织,患者和人群水平。这显示了健康信息学的前进方向,绝对是利用在所有各个级别的医疗数据中创建的大数据,并寻找最佳分析,挖掘和回答尽可能多的医疗问题的方法。
  • Macro Viceonti等人[5]描述了大数据分析可以与VPH(Virtual Physiological Human,虚拟生理人力)技术成功结合,在医疗保健行业生产强力有效的切片药物解决方案。
  • Simon Fong等[6]提出了一种具有特殊程度的维度的大数据集,被用于性能评估的新特征选择算法。该算法旨在用于数据流的数据挖掘。
  • Ian Gorton,John Klein [7]描述了软件架构师面对大数据系统的挑战。它甚至显示了分布式软件架构质量属性如何与数据和部署架构紧密相连。
  • Muhammad Idris等[8]实施了一个大数据服务引擎,为健康监控系统提供存储服务。它提供分析服务,可视化和监控用户执行的临床信息,身体活动和情绪。即使它提供了一个集成的,易于使用的数据,供用户监控其健康的生活方式,但它缺乏处理实时数据采集。
  • Hao Zhang等[9]对内存大数据管理与处理的设计原则进行了全面的综述。 详细介绍了设计和实现高性能内存系统的实用技术。 (大数据的爆炸引发了大量研究,开发系统来支持低延迟服务和实时分析。)
  • Yanfeng Zhang等[10]为MapReduce设计并实现了一种新的增量处理扩展,MapReduce是挖掘Big Data最广泛使用的框架。实验结果表明,本文提出的方法可以显着减少刷新大数据挖掘结果的运行时间。
  • Feng Li等[11]提供了一个全面的综述,其范围广泛,涉及使用MapReduce框架进行分布式数据管理和处理的提案和系统。
  • Anita Brigit Mathew等[12]设计了新的索引方法,即LIndex和HIndex,以便在不改变现有Hadoop框架的情况下,为Hadoop分布式文件系统和MapReduce系统中的索引提供支持。
  • Myeong-Seon Gil等[13]提出了一种在无失真子序列匹配中有效构建多维索引的算法。实验结果表明,对于30万索引施工时间的时间序列,从100分钟降至7.5分钟。
  • lialei Wang等[14]为大数据挖掘中的在线特征选择设计了一种新颖的算法,并对生物信息学中的计算机视觉图像分类和微阵列基因表达分析等现实应用进行了评估。
  • Han Hu等[15]提出了将大数据系统分解为不同模块的框架,实现了可扩展的集成系统。它包含了对研究和行业界许多方法和机制以及评估的详细调查。
  • Rui Mao等[16]提出了大数据抽象的概念,将度量空间作为AAL(Ambient Assisted Living, 环境辅助生活)数据类型的通用抽象。 为了处理各种数据,具有可接受性能的通用解决方案通常比定制解决方案更具成本效益。
  • Baodong lia等人[17]显示了Hadoop系统中数据采集解决方案的性能比较。给出了两种不同解决方案的性能比较,涉及数据质量和数据采集时间等两个指标。
  • Antonio lara等[18]提出了一种知识获取架构,将架构丰富的数据从临床设备整合到基于知识的信息系统中。该架构已经在传感器数据上实现和测试。
  • Nie Chun-yan, Xu Shan-shan等[19]基于LabVIEW通信系统实时数据采集实时传输,维护方便。
  • Okyay Kaynak等[20]详细介绍了大数据在各行业中日益增长的意义。
  • Sevestya K Bansal,Sebestian Kagemann [21]提出了一种语义模型,其中提取,变换和加载框架将语义应用于各种数据字段,从而允许更丰富的数据集成。
  • R.R.Suneetha,RK。 rishnamoorthi [22]对NASA网站的Web日志数据分析进行了深入分析。 这有助于研究人员使用大数据来探索Web使用挖掘。

Methodology

本文的研究工作:提出数据采集,传输,存储和大规模处理机制的单平台集成系统,便于之后的检索和实时数据服务,如股票市场/金融监管/医疗。

该系统由三个不同的抽象层组成:

  1. Data Acquisition:指获取信息的过程,它包含数据收集,数据传输和数据预处理单元。
  2. Data Processing:数据的集成和存储,以使用不同的转换方法获得过程数据。
  3. Data Services/Retrieval:提供不同的服务,如用户访问和使用数据。类似于接口,用户可以收集和使用不同来源的数据,而不会有太多延迟。

框架结构如下图所示:
Data Mining with Big Data--阅读笔记

Conclusion

  • 新技术的进步及其数据量的大幅度增长诞生了大数据。因此,它需要一个大数据框架来处理实时数据。
  • 具有可接受性能的通用解决方案通常比定制解决方案更具成本效益。
  • 提出的框架有助于为使用大数据方法的数据挖掘范例提供巨大的机会,以减少成本开销。提出的框架可以对不同参数进行验证和验证,以达到性能。

个人感想

这篇论文花了很大的篇幅介绍大数据的数据挖掘相关工作,但对自己提出的框架只做概念性的描述,可以认为这是一篇比较好的学习大数据的数据挖掘的综述论文,可从Literature Survey中寻找自己感兴趣的数据领域及其提出的方法。