《大数据技术原理与应用》—— 提纲

1.1 大数据时代
1.1.1 第三次信息化浪潮
1.1.2 信息科技为大数据时代提供技术支撑
1)存储设备容量不断增加
2)CPU处理能力大幅提升
3)网络带宽不断增加
1.1.3 数据产生方式的变革促成大数据时代的来临
运营式系统阶段——>用户原创内容阶段——>感知式系统阶段
1.1.4 大数据的发展历程
萌芽期 上世纪90年代至本世纪初 商业智能工具和知识管理技术开始被应用
成熟期 本世纪前十年 Web2.0应用迅猛发展,非结构化数据大量产生,形成并行计算和分布式系统两大核心技术
大规模应用期 2010年后 大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高
1.2 大数据概念
大数据不仅仅是数据的大量化,而是包含快速化、多样化和价值化等多重属性。
1.2.1 数据量大
1.2.2 数据类型繁多
大数据由结构化和非结构化数据组成的,10%的结构化数据,存储在数据库中,90%的非结构化数据,他们与人类的信息密切相关
1.2.3 处理速度快
1.2.4 价值密度低
但商业价值高
1.3 大数据的影响
全样而非抽样
效率而非精确
相关而非因果(例网上购物推荐相关产品)
1.4 大数据的应用
金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印迹。
实例:美剧《纸牌屋》、“谷歌流感趋势”,通过跟踪搜索关键词相关数据来判断全美地区的流感情况
1.5 大数据关键技术

技术层面 功能
数据采集 利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数 据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载 到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础; 或者也可以把实时采集的数据作为流计算系统的输入,进行实时处 理分析
数据存储和管理 利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云 数据库等,实现对结构化、半结构化和非结构化海量数据的存储和 管理
数据处理与分析 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算 法,实现对海量数据的处理和分析;对分析结果进行可视化呈现, 帮助人们更好地理解数据、分析数据
数据隐私和安全 在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐 私数据保护体系和数据安全体系,有效保护个人隐私和数据安全
两大核心技术
	分布式存储     分布式处理

1.6 大数据计算模式

大数据计算模式 解决问题
批处理计算 针对大规模数据的批量 处理
流计算 针对数据流的实时计算
图计算 针对大规模图结构数据的处理
查询分析计算 大规模数据的存储管理和查询分析

1.7 大数据产业
大数据产业是指一切与支撑大数据组织管理和价值发现的相关企业经济活动的集合

产业链环节 包含内容
IT基础设施层 包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业,比如 ,提供数据中心解决方案的IBM、惠普和戴尔等,提供存储解决方案的EMC,提供虚拟化 管理软件的微软、思杰、SUN、Redhat等
数据源层 大数据生态圈里的数据提供者,是生物大数据(生物信息学领域的各类研究机构)、交通 大数据(交通主管部门)、医疗大数据(各大医院、体检机构)、政务大数据(*部门 )、电商大数据(淘宝、天猫、苏宁云商、京东等电商)、社交网络大数据(微博、微信 、人人网等)、搜索引擎大数据(百度、谷歌等)等各种数据的来源
数据管理层 包括数据抽取、转换、存储和管理等服务的各类企业或产品,比如分布式文件系统(如 Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、数据库和 数据仓库(Oracle、MySQL、SQL Server、HBase、GreenPlum等)
数据分析层 包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,比如,分布式计算 框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau 、BI工具(MicroStrategy、Cognos、BO)等等
数据平台层 包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,比如阿里巴 巴、谷歌、中国电信、百度等
数据应用层 提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或*部门,比 如交通主管部门、各大医疗机构、菜鸟网络、国家电网等

1.8 大数据与云计算、物联网的关系
1.8.1 云计算
1、云计算概念:云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具 备网络接入条件的地方,就可以随时随地获得所需的各种IT资源
2、应用层:软件即服务(SaaS)
平台层:平台即服务(PaaS)
基础设施层:基础设施即服务(IaaS)
SaaS:从一个集中的系统部署软件,使之在一 台本地计算机上(或从云中远程地)运行 的一个模型。由于是计量服务,SaaS 允许出租一个应用程序,并计时收费
PaaS:类似于 IaaS,但是它包括操作系统和 围绕特定应用的必需的服务
IaaS:将基础设施(计算资源和存储)作为服务 出租
3、云计算关键技术
包括:虚拟化、分布式存储、分布式计算、多租户等
4、云计算数据中心
云计算数据中心是一整套复杂的设施,包括刀片服务器、宽带网络连接、环境控 制设备、监控设备以及各种安全装置等;数据中心是云计算的重要载体,为云计算提供计算、存储、带宽等各种硬件资源 ,为各种平台和应用提供运行支撑环境;全国各地推进数据中心建设
1.8.2 物联网
物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信 技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,形成人与物 、物与物相联,实现信息化和远程管理控制
1、物联网体系架构 《大数据技术原理与应用》—— 提纲
2、物联网关键技术
物联网中的关键技术包括识别和感知技术(二维码、RFID、传感器等)、网络与 通信技术、数据挖掘与融合技术等
3、物联网产业
完整的物联网产业链主要包括核心感应器件提供商、感知层末端设备提供商、网 络提供商、软件与行业解决方案提供商、系统集成商、运营及服务提供商等六大环节
1.8.3 大数据与云计算、物联网的关系
云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者既有区别又有联系
云计算为大数据提供了技术基础
大数据为云计算提供用武之地
物联网是大数据的重要来源
大数据技术为物联网数据分析提供支撑
云计算为物联网提供海量数据存储能力
物联网为云计算技术提供了广阔的应用空间

小结
本章介绍了大数据技术的发展历程,并指出信息科技的不断进步为大数据时代提供 了技术支撑,数据产生方式的变革促成了大数据时代的来临
• 大数据具有数据量大、数据类型繁多、处理速度快、价值密度低等特点,统称 “4V”。大数据对科学研究、思维方式、社会发展、就业市场和人才培养等方面, 都产生了重要的影响,深刻理解大数据的这些影响,有助于我们更好把握学习和应 用大数据的方向
• 大数据在金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内 的社会各行各业都得到了日益广泛的应用,深刻地改变着我们的社会生产和日常生活
• 大数据并非单一的数据或技术,而是数据和大数据技术的综合体。大数据技术主要 包括数据采集、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层 面的内容
• 大数据产业包括IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层 和数据应用层,在不同层面,都已经形成了一批引领市场的技术和企业
• 本章最后介绍了云计算和物联网的概念和关键技术,并阐述了大数据、云计算和物 联网三者之间的区别与联系