高性能计算系统——使用高性能计算进行实时分析
使用高性能计算进行实时分析
支持实时分析的技术
大量的技术支持实时分析
in-memory处理
在处理,处理器被集成到内存芯片中。in-memory处理确保分区数据可扩展,并且支持超快数据访问。这确保了对事物的高度支持并确保最佳一致性,还支持各种复杂数据模型。
由XAP创建的性能模型,使用XAP in-memory数据网络缓存技术来确保高性能和低延迟。
完全复制
这种方法中,每个成员均有完整的数据,可以进行同步或异步复制。
分区
每个节点持有数据的不同子集,允许不同虚拟机持有完整的数据集,这是通过将TB的数据完整保存在内存中实现的。
分区+备份
每个节点包含数据不同子块。
实时分析使用Hadoop MapReduce
ScaleOut hServer V2
- 全世界第一个Hadoop MapReduce引擎,集成一个可扩展、in-memory数据网络
- 完全支持实时快速变换数据
- 速度快
- 同其他Apache模型相比,速度快20倍。
- 安装简单
- 横向扩展分析服务器存储并分析实时数据
- in-memory数据存储保存实时数据,这些数据被持续更新和访问。
- 分析引擎跟踪重要模型和趋势
- 数据并行方法在几毫秒到几秒的时间内可产生结果。
in-database分析
分析逻辑构建在数据库内,数据在数据库内采用in-database分析技术处理
大规模在线分析
大规模在线分析(MOA)用于数据流和数据聚类。在当前的实时场景中,数据产生的速度非常快。数据来源包括手机APP、传感器、流量管理和网络监控、日志记录、产生制造、通信详单数据、电子邮件等。
MOA允许对数据流学习算法在大的数据流和无内存上限的情况下进行评估。
MOA允许数据流聚类的如下特性:
- 数据生成器和用于产生新的数据流
- 具有科扩展的算法集合
- 为数据流聚类采用新的评估技术
- 可以对分析结果进行可视化
通用并行文件系统
为了解决这些基于文件的存储问题,可以使用通用的并行文件系统(CPFS),它能够提供高性能,而且系统能够为未来的需求提供高度扩展。GPFS提供了一些选项来应对非结构化数据。GPFS在云环境中提供企业级存储网络,该网路时服务器和存储的混合。
GPFS具有一个TOKEN MANAGER(令牌管理器),用来帮助协调共享的磁盘。令牌管理器控制节点帮助他们实现对数据的直接访问。
GPFS用例
GPFS用例:
- 分布式系统的有效负载均衡
- 分布式区域网的数据共享
- ILM
- 灾难恢复(DR)
- Hadoop MapReduce App
- 云应用存储选项
- 智能数据仓库
分布式系统的有效负载均衡
GPFS通过并访问共同的数据集的进程和节点,支持I/O工作负载进行读写操作。数据的读写和存储使用数据分块技术,文件数据被分布到多个磁盘空间中。GPFS是一个智能数据均衡系统,其中的数据集在节点中并行共享。非常可靠,并且对于任何存储需求都可扩展,有助于改进输入输出处理。
分布式区域网络的数据共享
使用GPFS来进行全球文件共享的最好实例就是欧洲的DEISA(Distributed European Infrastructure for Supercomputing Applications)的缩写。DEISA使用GPFS在WAN中分布大量数据。存储的目标是:
- 加速全球有效的文件系统,该系统集成异构机构。
- 加速系统性能。
- 就像在本地文件系统中那样,提供对数据的透明访问。
信息生命周期管理
信息生命周期挂历(ILM)是为特定的系统管理信息,包括存储系统。信息可以是任何形式的。ILM管理数据保护、数据备份、数据恢复、数据获取、数据复制、灾难恢复。
记录和信息管理(RIM)使用ILM来管理信息。信息生命周期管理的效率可以通过CPFS的自动存储管理架构获得提高。另外一个优点是管理员可以管理无数的文件,也可以很容易检索最近使用的文件来创建保存文件的备份策略。
灾难恢复
GPFS在另外的位置维持一个复制文件系统,可以随时进行恢复。GPFS集群有三个硬件站点同时工作,两个硬件站点中的GPFS节点包括文件系统的副本。第三个站点只有一个节点,用作GPFS的中断器(tiebreaker)。
Hadoop MapReduce App
GFPS有一个先进的功能,被称做无共享集群,该架构被称作GPFS-SNC。这里增加的功能帮助系统随时可用,并且提供了更好的数据复制。
在使用Hadoop分布式文件系统时,有一些限制,例如文件不能被追加,而且任何部不能被覆盖。GPFS帮助系统用户打开、读取、追加文件、并对文件进行备份和归档,而且允许数据缓存和数据复制。
Hadoop | GPFS |
---|---|
架构基于主从技术 | 高性能共享磁盘架构 |
不支持文件加锁 | 分布式加锁 |
数据分块-统一大小 | 数据分块-多个节点 |
一次写入多次读取模型 |
云应用存储选项
云栈的存储层的功能包括:
- 可扩展性
- 可靠性
- 效率
- 低成本
GPFS:关键区别
- 主要的部署、管理、备份是通过GPFS
- 共享磁盘使用全局命名空间来访问
- 易于访问的集架构
- 统一的容量扩展
- 可支持超过4000个节点
- 并行处理、效率非常高。
机器数据分析
机器数据分析是分析方面发展最快的领域之一。机器数据可以是社交网络应用、移动设备、服务器等所产生的数据以及网络数据。
机器数据分析是关于对类似日志数据、报警和消息数据、申请等机器产生的数据的分析,并从这些数据中获取价值,用来创建新的洞见。
机器数据是由两种类型的交互所产生的数据,即机器到机器(M2M)和人到机器(H2M),这些数据可以是结构化的,也可以是非结构化的。
Splunk
Splunk使用计算机日志来解决来自机器数据的安全问题以及其他错误。该软件被设计为处理日常从不同来源收集的TB级数据。
Splunk可以部署到大量环境中,从单独的系统到待处理数据量极大的分布式系统。Splunk架构由forwarder、indexer、search head组成,能够对来自各种来源的结构化或非结构化数据进行安全有效的收集和索引操作
运营分析
运营分析是关于业务运营的分析、会涉及数据挖掘工具和技术,目的是从数据中获得更多的价值以及得到更好的业务规划。主要的目标是改进运营系统中的决策。
运营分析中的技术
决策服务可以用来通过使用好的预测模型和支持优化的技术来做出最佳决策。
用例以及运营分析平台
IBM SPSS Modeler功能
是一个预测分析平台,允许从系统和个人发送的数据中做出预测性决策。提供了大量技术和算法,使得决策更加容易有效。
提供的功能:
- 自动建模:提供大量建模技术
- 文本分析:对非结构化数据进行有效的数据分析
- 实体分析
- 社交网络分析
- 建模算法
- 异常检测
- Apriori
- 贝叶斯网络
- C&RT、C5.0、CHAID和Quest
- 决策列表
- 逻辑回归
- 神经网络
其他IBM运营分析产品
- IBM SPSS Statistics
- IBM SPSS Data Collection
- IBM Cognos Business Intelligence
- IBM Predictive Maintenance and Quality