大数据第一周作业

1、什么是云计算

    云计算(cloud computing)是分布式计算的一种,指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,然后,通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。云计算早期,简单地说,就是简单的分布式计算,解决任务分发,并进行计算结果的合并。因而,云计算又称为网格计算。通过这项技术,可以在很短的时间内(几秒种)完成对数以万计的数据的处理,从而达到强大的网络服务
    现阶段所说的云服务已经不单单是一种分布式计算,而是分布式计算、效用计算、负载均衡、并行计算、网络存储、热备份冗杂和虚拟化等计算机技术混合演进并跃升的结果。
     “云”实质上就是一个网络,狭义上讲,云计算就是一种提供资源的网络,使用者可以随时获取“云”上的资源,按需求量使用,并且可以看成是无限扩展的,只要按使用量付费就可以,“云”就像自来水厂一样,我们可以随时接水,并且不限量,按照自己家的用水量,付费给自来水厂就可以。
    从广义上说,云计算是与信息技术、软件、互联网相关的一种服务,这种计算资源共享池叫做“云”,云计算把许多计算资源集合起来,通过软件实现自动化管理,只需要很少的人参与,就能让资源被快速提供。也就是说,计算能力作为一种商品,可以在互联网上流通,就像水、电、煤气一样,可以方便地取用,且价格较为低廉。
    总之,云计算不是一种全新的网络技术,而是一种全新的网络应用概念,云计算的核心概念就是以互联网为中心,在网站上提供快速且安全的云计算服务与数据存储,让每一个使用互联网的人都可以使用网络上的庞大计算资源与数据中心。

2、云计算关键技术

云计算实现关键技术如下:

一、体系结构

    实现计算机云计算需要创造一定的环境与条件,尤其是体系结构必须具备以下关键特征。第一,要求系统必须智能化,具有自治能力,减少人工作业的前提下实现自动化处理平台智地响应要求,因此云系统应内嵌有自动化技术;第二,面对变化信号或需求信号云系统要有敏捷的反应能力,所以对云计算的架构有一定的敏捷要求。与此同时,随着服务级别和增长速度的快速变化,云计算同样面临巨大挑战,而内嵌集群化技术与虚拟化技术能够应付此类变化。
    云计算平台的体系结构由用户界面、服务目录、管理系统、部署工具、监控和服务器集群组成:
(1)用户界面。主要用于云用户传递信息,是双方互动的界面。
(2)服务目录。顾名思义是提供用户选择的列表。
(3)管理系统。指的是主要对应用价值较高的资源进行管理。
(4)部署工具。能够根据用户请求对资源进行有效地部署与匹配。
(5)监控。主要对云系统上的资源进行管理与控制并制定措施。
(6)服务器集群。服务器集群包括虚拟服务器与物理服务器,隶属管理系统。

二、资源监控

    云系统上的资源数据十分庞大,同时资源信息更新速度快,想要精准、可靠的动态信息需要有效途径确保信息的快捷性。而云系统能够为动态信息进行有效部署,同时兼备资源监控功能,有利于对资源的负载、使用情况进行管理。其次,资源监控作为资源管理的“血液”,对整体系统性能起关键作用,一旦系统资源监管不到位,信息缺乏可靠性那么其他子系统引用了错误的信息,必然对系统资源的分配造成不利影响。因此贯彻落实资源监控工作刻不容缓。资源监控过程中,只要在各个云服务器上部署Agent代理程序便可进行配置与监管活动,比如通过一个监视服务器连接各个云资源服务器,然后以周期为单位将资源的使用情况发送至数据库,由监视服务器综合数据库有效信息对所有资源进行分析,评估资源的可用性,最大限度提高资源信息的有效性。

三、自动化部署

    科学进步的发展倾向于半自动化操作,实现了出厂即用或简易安装使用。基本上计算资源的可用状态也发生转变,逐渐向自动化部署。对云资源进行自动化部署指的是基于脚本调节的基础上实现不同厂商对于设备工具的自动配置,用以减少人机交互比例、提高应变效率,避免超负荷人工操作等现象的发生,最终推进智能部署进程。自动化部署主要指的是通过自动安装与部署来实现计算资源由原始状态变成可用状态。其于与计算中表现为能够划分、部署与安装虚拟资源池中的资源为能够给用户提供各类应用于服务的过程,包括了存储、网络、软件以及硬件等。系统资源的部署步骤较多,自动化部署主要是利用脚本调用来自动配置、部署与配置各个厂商设备管理工具,保证在实际调用环节能够采取静默的方式来实现,避免了繁杂的人际交互,让部署过程不再依赖人工操作。
    除此之外,数据模型与工作流引擎是自动化部署管理工具的重要部分,不容小觑。一般情况下,对于数据模型的管理就是将具体的软硬件定义在数据模型当中即可;而工作流引擎指的是触发、调用工作流,以提高智能化部署为目的,善于将不同的脚本流程在较为集中与重复使用率高的工作流数据库当中应用,有利于减轻服务器工作量。

3、云计算的特点

 云计算的可贵之处在于高灵活性、可扩展性和高性比等,与传统的网络应用模式相比,其具有如下优势与特点:

一、虚拟化技术。

 必须强调的是,虚拟化突破了时间、空间的界限,是云计算最为显著的特点,虚拟化技术包括应用虚拟和资源虚拟两种。众所周知,物理平台与应用部署的环境在空间上是没有任何联系的,正是通过虚拟平台对相应终端操作完成数据备份、迁移和扩展等。

二、动态可扩展。

 云计算具有高效的运算能力,在原有服务器基础上增加云计算功能能够使计算速度迅速提高,最终实现动态扩展虚拟化的层次达到对应用进行扩展的目的。

三、按需部署。

 计算机包含了许多应用、程序软件等,不同的应用对应的数据资源库不同,所以用户运行不同的应用需要较强的计算能力对资源进行部署,而云计算平台能够根据用户的需求快速配备计算能力及资源。

四、灵活性高。

 目前市场上大多数IT资源、软、硬件都支持虚拟化,比如存储网络、操作系统和开发软、硬件等。虚拟化要素统一放在云系统资源虚拟池当中进行管理,可见云计算的兼容性非常强,不仅可以兼容低配置机器、不同厂商的硬件产品,还能够外设获得更高性能计算。

五、可靠性高。

 倘若服务器故障也不影响计算与应用的正常运行。因为单点服务器出现故障可以通过虚拟化技术将分布在不同物理服务器上面的应用进行恢复或利用动态扩展功能部署新的服务器进行计算。

六、性价比高。

 将资源放在虚拟资源池中统一管理在一定程度上优化了物理资源,用户不再需要昂贵、存储空间大的主机,可以选择相对廉价的PC组成云,一方面减少费用,另一方面计算性能不逊于大型主机。

七、可扩展性。

 用户可以利用应用软件的快速部署条件来更为简单快捷的将自身所需的已有业务以及新业务进行扩展。如,计算机云计算系统中出现设备的故障,对于用户来说,无论是在计算机层面上,亦或是在具体运用上均不会受到阻碍,可以利用计算机云计算具有的动态扩展功能来对其他服务器开展有效扩展。这样一来就能够确保任务得以有序完成。在对虚拟化资源进行动态扩展的情况下,同时能够高效扩展应用,提高计算机云计算的操作水平。

4、什么是集群技术

  简单说,集群(cluster)就是一组计算机,它们作为一个整体向用户提供一组网络资源。这些单个的计算机系统就是集群的节点(node)。一个理想的集群就是,用户从来不会意识到集群系统底层的节点,在他们看来,集群是一个系统,而非多个计算机系统。并且集群系统的管理员可以随意增加和删改集群系统的节点。集群并不是一个全新的概念,其实早在七十年代计算机产商和研究机构就开始对集群系统的研究和并发。由于主要用于科学工程计算,所以这些系统并不为大家所熟知。知道Linux系统出现,集群的概念才得以广为传播。
  集群实际就是一个cluster,这个cluster要从两个方面考虑,一个是性能的叠加,另外一个就是可以实现高可用性。
  大数据第一周作业

5、集群技术有哪些

一、科学集群

 科学集群是并行计算的基础。通常,科学集群涉及为集群开发的并行应用程序,以解决复杂的科学问题。科学集群对外就好像一个超级计算机,这种超级计算机内部由十至上万个独立处理器组成,并且在公共消息传递层上进行通信以运行并行应用程序。

二、负载均衡集群

 负载均衡集群为企业需求提供了更实用的系统。负载均衡集群使负载可以在计算机集群中尽可能平均地分摊处理。负载通常包括应用程序处理负载和网络流量负载。这样的系统非常适合向使用同一组应用程序的大量用户提供服务。每个节点都可以承担一定的处理负载,并且可以实现处理负载在节点之间的动态分配,以实现负载均衡。对于网络流量负载,当网络服务程序接受了高入网流量,以致无法迅速处理,这时,网络流量就会发送给在其它节点上运行的网络服务程序。同时,还可以根据每个节点上不同的可用资源或网络的特殊环境来进行优化。与科学计算集群一样,负载均衡集群也在多节点之间分发计算处理负载。它们之间的最大区别在于缺少跨节点运行的单并行程序。大多数情况下,负载均衡集群中的每个节点都是运行单独软件的独立系统。
 但是,不管是在节点之间进行直接通信,还是通过*负载均衡服务器来控制每个节点的负载,在节点之间都有一种公共关系。通常,使用特定的算法来分发该负载。

三、高可用性集群

 当集群中的一个系统发生故障时,集群软件迅速做出反应,将该系统的任务分配到集群中其它正在工作的系统上执行。考虑到计算机硬件和软件的易错性,高可用性集群的主要目的是为了使集群的整体服务尽可能可用。如果高可用性集群中的主节点发生了故障,那么这段时间内将由次节点代替它。次节点通常是主节点的镜像。当它代替主节点时,它可以完全接管其身份,因此使系统环境对于用户是一致的。
 高可用性集群使服务器系统的运行速度和响应速度尽可能快。它们经常利用在多台机器上运行的冗余节点和服务,用来相互跟踪。如果某个节点失败,它的替补者将在几秒钟或更短时间内接管它的职责。因此,对于用户而言,集群永远不会停机。
 在实际的使用中,集群的这三种类型相互交融,如高可用性集群也可以在其节点之间均衡用户负载。同样,也可以从要编写应用程序的集群中找到一个并行集群,它可以在节点之间执行负载均衡。从这个意义上讲,这种集群类别的划分是一个相对的概念,不是绝对的。

6、什么是MPI

 MPI是一个跨语言的通讯协议,用于编写并行计算机。支持点对点和广播。MPI是一个信息传递应用程序接口,包括协议和和语义说明,他们指明其如何在各种实现中发挥其特性。MPI的目标是高性能,大规模性,和可移植性。MPI在今天仍为高性能计算的主要模型。
 主要的MPI-1模型不包括共享内存概念,MPI-2只有有限的分布共享内存概念。 但是MPI程序经常在共享内存的机器上运行。在MPI模型周边设计程序比在NUMA架构下设计要好因为MPI鼓励内存本地化。
 尽管MPI属于OSI参考模型的第五层或者更高,他的实现可能通过传输层的sockets和Transmission Control Protocol (TCP)覆盖大部分的层。大部分的MPI实现由一些指定惯例集(API)组成,可由C,C++,Fortran,或者有此类库的语言比如C#, Java or Python直接调用。MPI优于老式信息传递库是因为他的可移植性和速度。

7、什么是网格计算

    网格计算是伴随着互联网而迅速发展起来的,专门针对复杂科学计算的新型计算模式。这种计算模式是利用互联网把分散在不同地理位置的电脑组织成一个“虚拟的超级计算机”,其中每一台参与计算的计算机就是一个“节点”,而整个计算是由成千上万个“节点”组成的“一张网格”,所以这种计算方式叫网格计算。这样组织起来的“虚拟的超级计算机”有两个优势,一个是数据处理能力超强;另一个是能充分利用网上的闲置处理能力。    
    实际上,网格计算是分布式计算(Distributed Computing)的一种,如果我们说某项工作是分布式的,那么,参与这项工作的一定不只是一台计算机,而是一个计算机网络,显然这种“蚂蚁搬山”的方式将具有很强的数据处理能力。    
    充分利用网上的闲置处理能力则是网格计算的有一个优势,网格计算模式首先把要计算的数据分割成若干“小片”,而计算这些“小片”的软件通常是一个预先编制好的屏幕保护程序,然后不同节点的计算机可以根据自己的处理能力下载一个或多个数据片断和这个屏幕保护程序。于是“演出开始了”,只要,节点的计算机的用户不使用计算机时,屏保程序就会工作,这样这台计算机的闲置计算能力就被充分地调动起来了。

8、网格计算、云计算和MPI网络的区别(从结构、运行原理)

  1. 并行计算通常在单一数据中心(高效的网络)组织大量资源完成某一计算任务,计算资源发挥极致。

  2. 网格计算在并行计算基础上强调资源可以异构。

  3. 云计算面向互联网环境提供更多的服务,通常采用虚拟化技术。

9、什么是计算切分

10、什么是数据切分

    数据切分(Sharding)是指通过某种特定的条件,将我们存放在同一个数据库中的数据分散存放到多个数据库(主机)上面,以达到分散单台设备负载的效果。数据的切分同时还可以提高系统的总体可用性,因为单台设备Crash之后,只有总体数据的某部分不可用,而不是所有的数据。
    数据的切分(Sharding)根据其切分规则的类型,可以分为两种切分模式。一种是按照不同的表(或者Schema)来切分到不同的数据库(主机)之上,这种切可以称之为数据的垂直(纵向)切分;另外一种则是根据表中的数据的逻辑关系,将同一个表中的数据按照某种条件拆分到多台数据库(主机)上面,这种切分称之为数据的水平(横向)切分。

11、物联网四个环节

    物联网产业链可细分为标识、感知、处理和信息传送4个环节,因此物联网每个环节主要涉及的关键技术包括:射频识别技术、传感器技术、传感器网络技术、网络通信技术等。

一、射频识别(RFID)技术

    RFID是物联网中信息采集的主要源头,在整个物联网体系中十分重要。RFID是一种非接触式的自动识别技术,具有读取距离远(可达数十米)、读取速度快、穿透能力强(可透过包装箱直接读取信息)、无磨损、非接触、抗污染、效率高(可同时处理多个标签)、数据储存量大等特点,是唯一可以实现多目标识别的自动识别技术,可工作于各种恶劣环境。一个典型的RFID系统一般由RFID电子标签、读写器和信息处理系统组成。当带有电子标签的物品通过特定的信息读写器时,标签被读写器**并通过无线电波将标签中携带的信息传送到读写器以及信息处理系统,完成信息的自动采集工作,而信息处理系统则根据需求承担相应的信息控制和处理工作。现在RFID在农畜产品安全生产监控、动物识别与跟踪、农畜精细生产系统、畜产品精细养殖数字化系统、农产品物流与包装等方面已正式应用。

二、传感器技术

    传感器负责物联网信息的采集,是物体感知物质世界的“感觉器官”,是实现对现实世界感知的基础,是物联网服务和应用的基础。传感器通常由敏感元件和转换元件组成,可通过声、光、电、热、力、位移、湿度等信号来感知,为物联网的工作采集、分析、反馈最原始的信息。传感器种类及品种繁多,原理也各式各样。随着技术的发展,新的传感器类型不断产生,应用领域也越来越广泛。传感器技术的发展与突破主要体现在两个方面:一是感知信息方面;二是传感器自身的智能化和网络化。近年来,随着生物科学、信息科学和材料科学的发展,传感器技术飞速发展。由于微电子技术和微机械加工技术的快速发展,传感器有向微型化、多功能化,智能化和网络化方向发展的趋势。

三、传感器网络技术

    传感器网络综合了传感器技术、嵌入式计算技术、现代网络及无线通信技术、分布式信息处理技术等,能够通过各类集成化的微型传感器协作地实时监测、感知和采集各种环境或监测对象的信息,通过嵌入式系统对信息进行处理,并通过随机自组织无线通信网络以多跳(multihop)中继方式将所感知信息传送到用户终端,从而真正实现“无处不在的计算”理念。一个典型的传感器网络结构通常由传感器节点、接收发送器、Internet或通信卫星、任务管理节点等部分构成。

四、网络通信技术

    无论物联网的概念如何扩展和延伸,其最基础的物物之间的感知和通信是不可替代的关键技术。传感器的网络通信技术为物联网数据提供传送通道,而如何在现有网络上进行增强,适应物联网业务需求(低数据率、低移动性等),是现在物联网研究的重点。传感器的网络通信技术分为近距离通信和广域网络通信技术两类。传感网络相关通信技术,常见的有蓝牙、IrDA、Wi-Fi、ZigBee、RFID、UWB、NFC、WirelessHart等。

12、云计算与大数据关系

一、大数据与云计算的关系

    大数据和云计算这两种技术本身都是有价值的。 此外,许多企业的目标是将两种技术结合起来以获取更多的商业利益。两种技术都旨在提高公司的收入,同时降低投资成本。尽管Cloud管理本地软件,但大数据有助于业务决策。

二、大数据与云计算

大数据处理大量的结构化,半结构化或非结构化数据,以进行存储和处理以进行数据分析。大数据有五个方面,通过5V来描述数量
–数据量种类

  • 不同类型的数据速度
  • 系统中的数据流率价值
  • 基于其中包含的信息的数据价值准确性
  • 数据保密性和可用性

云计算以按需付费的模式向用户提供服务。云提供商提供三种主要服务,这些服务概述如下:

  • 基础架构即服务(IAAS)

    在这里,服务提供商将提供整个基础架构以及与维护相关的任务。

  • 平台即服务(PAAS)

    在此服务中,Cloud提供程序提供了诸如对象存储,运行时,排队,数据库等资源。但是,与配置和实现相关的任务的责任取决于使用者。

  • 软件即服务(SAAS)

    此服务是最便捷的服务,它提供所有必要的设置和基础结构,并为平台和基础结构提供IaaS。

大数据第一周作业                          大数据与云计算的关系模型

三、云计算在大数据中的作用

  • List item

大数据和云计算的关系可以根据服务类型进行分类:
IAAS在公共云中IaaS是一种经济高效的解决方案,利用此云服务,大数据服务使人们能够访问无限的存储和计算能力。
对于云提供商承担所有管理基础硬件费用的企业而言,这是一种非常经济高效的解决方案。

  • 私有云中的PAAS

PaaS供应商将大数据技术纳入其提供的服务。因此,它们消除了处理管理单个软件和硬件元素的复杂性的需求,而这在处理TB级数据时是一个真正的问题。

  • 混合云中的SAAS

如今,分析社交媒体数据已成为公司进行业务分析的基本参数。在这种情况下,SaaS供应商提供了进行分析的出色平台。

四、大数据与云计算有何关系?

因此,从以上描述中,我们可以看到,Cloud通过可伸缩且灵活的自助服务应用程序抽象了挑战和复杂性,从而启用了“即服务”模式。从最终用户提取海量数据的分布式处理时,大数据需求是相同的。
云中的大数据分析有多个好处。

  • 改进分析

随着云技术的进步,大数据分析变得更加完善,从而带来了更好的结果。因此,公司倾向于在云中执行大数据分析。此外,云有助于整合来自众多来源的数据。

  • 简化的基础架构

大数据分析是基础架构上一项艰巨的艰巨工作,因为数据量大,速度和传统基础架构通常无法跟上的类型。由于云计算提供了灵活的基础架构,我们可以根据当时的需求进行扩展,因此管理工作负载很容易。

  • 降低成本

大数据和云技术都通过减少所有权来为组织创造价值。云的按用户付费模型将CAPEX转换为OPEX。另一方面,Apache降低了大数据的许可成本,该成本应该花费数百万美元来构建和购买。云使客户无需大规模的大数据资源即可进行大数据处理。因此,大数据和云技术都在降低企业成本并为企业带来价值。

  • 安全与隐私

数据安全性和隐私性是处理企业数据时的两个主要问题。此外,当您的应用程序由于其开放的环境和有限的用户控制安全性而托管在Cloud平台上时,这成为主要的问题。另一方面,像Hadoop这样的大数据解决方案是一个开源应用程序,它使用了大量的第三方服务和基础架构。因此,如今,系统集成商引入了具有弹性和可扩展性的私有云解决方案。此外,它还利用了可扩展的分布式处理。
除此之外,云数据是在通常称为云存储服务器的*位置存储和处理的。服务提供商和客户将与之一起签署服务水平协议(SLA),以获得他们之间的信任。如果需要,提供商还可以利用所需的高级安全控制级别。这可确保涵盖以下问题的云计算中大数据的安全性:

  1. 保护大数据免受高级威胁。
  2. 云服务提供商如何维护存储和数据。

有一些与服务级别协议相关的规则可以保护

  • 数据容量
  • 可扩展性
  • 安全隐私
  • 数据存储的可用性和数据增长

另一方面,在许多组织中,大数据分析被用来检测和预防高级威胁和恶意黑客。

  • 虚拟化

基础架构在支持任何应用程序中都起着至关重要的作用。虚拟化技术是大数据的理想平台。像Hadoop这样的虚拟化大数据应用程序具有多种优势,这些优势在物理基础架构上是无法访问的,但它简化了大数据管理。大数据和云计算指出了各种技术和趋势的融合,这使IT基础架构和相关应用程序更加动态,更具消耗性和模块化。因此,大数据和云计算项目严重依赖虚拟化。