大数据技术原理与应用

第1讲 大数据概述
1.1 大数据时代
1.2 大数据概念和影响
1.3 大数据的应用
1.4 大数据的关键技术
1.5 大数据与云计算、物联网

第2讲 大数据处理架构Hadoop
2.1 概述
2.2 Hadoop项目结构
2.3 Hadoop的安装与使用
2.4 Hadoop集群的部署和使用

第3讲 分布式文件系统HDFS
3.1 分布式文件系统HDFS简介
3.2 HDFS相关概念
3.3 HDFS体系结构
3.4 HDFS存储原理
3.5 HDFS数据读写过程
3.6 HDFS编程实践

第4讲 分布式数据库HBase
4.1 HBase简介
4.2 HBase数据模型
4.3 HBase的实现原理
4.4 HBase运行机制
4.5 HBase应用方案
4.6 HBase安装配置和常用Shell命令
4.7 HBase常用Java API及应用实例

第5讲 NoSQL数据库
5.1 NoSQL概述
5.2 NoSQL与关系数据库的比较
5.3 NoSQL的四大类型
5.4 NoSQL的三大基石
5.5 从NoSQL到NewSQL数据库
5.6 文档数据库MongoDB

第6讲 云数据库
6.1 云数据库概述
6.2 云数据库产品
6.3 云数据库系统架构
6.4 Amazon AWS和云数据库
6.5 微软云数据库SQL Azure
6.6 云数据库实践

第7讲 MapReduce
7.1 MapReduce概述
7.2 MapReduce的体系结构
7.3 MapReduce工作流程
7.4 Shuffle过程原理
7.5 MapReduce应用程序执行过程
7.6 实例分析:WordCount
7.7 MapReduce的具体应用
7.8 MapReduce编程实践

第8讲 数据仓库Hive
8.1 数据仓库概念
8.2 Hive简介
8.3 SQL转换成MapReduce作业的原理
8.4 Impala
8.5 Hive编程实践

第9讲 Hadoop再探讨
9.1 Hadoop的优化与发展
9.2 HDFS2.0的新特性
9.3 新一代资源管理调度框架YARN
9.4 Hadoop生态系统中具有代表性的功能组件

第10讲 Spark
10.1 Spark概述
10.2 Spark生态系统
10.3 Spark运行架构
10.4 Spark SQL
10.5 Spark的部署和应用方式
10.6 Spark编程实践

第11讲 流计算
11.1 流计算概述
11.2 流计算处理流程
11.3 流计算的应用
11.4 开源流计算框架Storm
11.5 Spark Streaming、Samza以及三种流计算框架的比较
11.6 Storm编程实践

第12讲 图计算
12.1 图计算简介
12.2 Pregel简介
12.3 Pregel图计算模型
12.4 Pregel的C++ API
12.5 Pregel的体系结构
12.6 Pregel的应用实例——单源最短路径
12.7 Hama的安装和使用

第13讲 大数据在不同领域的应用
13.1 大数据应用概览
13.2 推荐系统
13.3 大数据在智能医疗和智能物流领域运用

第1讲 大数据概述

1.1 大数据时代

(1)对于计算机安装了Windows系统的读者。如果你对Linux系统很熟悉,可以尝试采用双系统安装方式(只要2GB内存就可以顺利运行大数据环境),也就是同时安装Windows系统和Linux系统,开机启动时,可以选择进入哪种操作系统。但是,很多读者对于Linux系统并不熟悉,所以,建议采用在Windows系统中安装Linux虚拟机,这样,可以很容易在自己熟悉的Windows系统中启动进入Linux虚拟机。但是,在Windows系统中安装Linux虚拟机,需要计算机的内存至少在4GB,否则,运行速度会很慢,严重阻碍大数据各项实验的顺利开展。所以,如果你的计算机内存小于4GB,当采用在Windows系统中安装Linux虚拟机这种方式时,建议你采购一条8GB内存增加到你的计算机中,同时,要求划分给Linux虚拟机的磁盘空间要大于等于30GB。

(2)对于苹果Mac笔记本电脑。不需要采用虚拟机的方式,也不需要双系统的方式,可以直接在Mac中安装Hadoop、Spark等各种大数据软件。并且,不需要额外购买内存条,基本上,Mac笔记本电脑的硬件配置,都可以顺畅运行大数据实验环境。

教材:大数据技术原理与应用
大数据技术原理与应用
资料:https://dblab.xmu.edu.cn/post/8197/

大数据概念、影响、应用、关键技术
大数据与云计算、物联网的关系

1.1.1第三次信息化浪潮
根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革
大数据技术原理与应用
1.1.2信息科技为大数据时代提供技术支撑
存储
大数据技术原理与应用
计算
大数据技术原理与应用
网络
大数据技术原理与应用
1.1.3数据产生方式的变革促成大数据时代的来临
大数据技术原理与应用
1.1.4大数据的发展历程
大数据技术原理与应用

1.2 大数据概念

大数据技术原理与应用
1.2.1 数据量大
1根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增 长一倍(大数据摩尔定律)
2人类在最近两年产生的数据量相当于之前产生的全部数据量
3预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近 30倍
1.2.2 数据类型繁多
大数据是由结构化和非结构化数据组成的
– 10%的结构化数据,存储在数据库中 – 90%的非结构化数据,它们与人类信息密切相关
大数据技术原理与应用
大数据技术原理与应用
1.2.3 处理速度快
大数据技术原理与应用
谷歌的Dremel:交互式查询,成千上万台服务器,只需要1秒
1.2.4 价值密度低
价值密度低,商业价值高
以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高 的商业价值

1.3 大数据的影响

图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结人类自古以来,在科学研究上,先后 历经了实验、理论、计算和数据四种范式 。
在思维方式方面,大数据完全颠覆了传统的思维方式:
– 全样而非抽样 抽取数据存储、计算、分析,而现在包含众多CPU的集群
– 效率而非精确 抽样计算的结果误差全羊上会放大
– 相关而非因果

1.4 大数据的应用

影视剧拍摄、谷歌预测流感:搜索引擎实时收集用户的搜索情况,实时分析

1.5 大数据关键技术

大数据技术原理与应用
大数据技术原理与应用
大数据技术原理与应用
分布式数据库BigTable、分布式文件系统GFS、分布式并行处理技术MapReduce

1.6 大数据计算模式

大数据技术原理与应用
批处理
大数据技术原理与应用
MapReduce没办法做迭代计算,但Spark可以高效地做迭代计算(数据挖掘)
流计算(实时计算)
大数据技术原理与应用
大数据技术原理与应用
图计算
大数据技术原理与应用
大数据技术原理与应用
查询分析计算
大数据技术原理与应用

1.7 大数据产业

大数据技术原理与应用

1.8 大数据与云计算、物联网的关系

云计算:云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具 备网络接入条件的地方,就可以随时随地获得所需的各种IT资源 。即通过网络以服务的方式为用户提供非常廉价的IT资源。
大数据技术原理与应用
公有云:百度云
私有云:电信云
混合云:
大数据技术原理与应用
大数据技术原理与应用
大数据技术原理与应用
底层基础设施即服务:把基础设施作为一种服务,卖给你。购买亚马逊的基础设施即服务,亚马逊提供了弹性计算云EC2,可以直接通过网络购买这种EC2的环境,在环境里面去安装各种系统各种应用。亚马逊直接给用户搭建好一个平台,内存CPU存储全给用户提供了,用户直接在平台上面安装系统和应用就可以了。
大数据技术原理与应用
大数据技术原理与应用
平台即服务:云计算时代,很多时候都需要去开发一些云计算的产品,这个时候作为一个个体来讲,你没有能力去给自己搭建一个云环境,谷歌等公司就专门提供了一个云平台开发环境,你可以在它搭建好的云平台上面,它给你提供了一系列的环境和接口,你去调用它的接口,用它的资源开发各种云计算产品。开发出来的产品,也部署在它的分布式服务器平台上面,它可以把底层成千上万台服务器资源供你去调用它给你搭建起这么一个平台,把这个平台作为服务来买给你用。国内新浪也在做这么一个平台,sina PP Angine,搭建了云计算环境的开发平台,你可以在新浪上面开发各种云应用,在它上面开发、部署,然后卖给别人。
大数据技术原理与应用
软件即服务:以前是卖金蝶。云财务软件,用户在任何一个地方,只要有浏览器就可以用。全球这样的公司,salesforce。
云计算解决的问题:
大数据技术原理与应用
云计算关键技术包括:虚拟化、分布式存储、分布式计算、多租户等
大数据技术原理与应用
大数据技术原理与应用
虚拟化:自己在做上机时,
大数据技术原理与应用
云计算数据中心:是一整套复杂的设施,包括刀片服务器、宽带网络连接、环境控 制设备、监控设备以及各种安全装置等。 数据中心是云计算的重要载体,为云计算提供计算、存储、带宽等各种硬件资源 ,为各种平台和应用提供运行支撑环境 。全国各地推进数据中心建设 。
大数据技术原理与应用
都在云里?各种 数据和应用,并非在“天上云端”,而是位于数据中心里。所有的计算所有的应用都由数据中心来承载的,数据中心是由成百上千台上万台服务器构成的。
一般一个标准的服务中心,可能会包含5000台刀片服务器。
大数据技术原理与应用
大数据技术原理与应用
数据中心建好了后,就可以收费了。
数据中心修建在冷。电力资源比较丰富的地方。地质稳定的地方。贵州
数据中心能耗非常大。一天30万的电费
大数据技术原理与应用
一个数据中心修建需要30~50个亿。
大数据技术原理与应用
大数据技术原理与应用
并不是一个机箱,机箱是有外壳的,而刀片式服务器都是裸露的,CPU和内存都在上面,插上去就可以了。
云计算的应用:
大数据技术原理与应用
• 政务云上可以部署公共安全管理、容灾备份、城市管理、应急管理、智能交通、社 会保障等应用,通过集约化建设、管理和运行,可以实现信息资源整合和政务资源 共享,推动政务管理创新,加快向服务型*转型
• 教育云可以有效整合幼儿教育、中小学教育、高等教育以及继续教育等优质教育资 源,逐步实现教育信息共享、教育资源共享及教育资源深度挖掘等目标
• 中小企业云能够让企业以低廉的成本建立财务、供应链、客户关系等管理应用系统 ,大大降低企业信息化门槛,迅速提升企业信息化水平,增强企业市场竞争力
• 医疗云可以推动医院与医院、医院与社区、医院与急救中心、医院与家庭之间的服 务共享,并形成一套全新的医疗健康服务系统,从而有效地提高医疗保健的质量

*把所有这些机器全部统一集中在一个地方,按虚拟化技术构建一个庞大的资源池。大家公用这样一个资源池,可以提高设备的资源利用率 。

云计算产业: 云计算产业作为战略性新兴产业,近些年得到了迅速发展,形成了成熟的产业链 结构,产业涵盖硬件与设备制造、基础设施运营、软件与解决方案供应商、基础 设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)、终端设备 、云安全、云计算交付/咨询/认证等环节
大数据技术原理与应用

第2讲 大数据处理架构Hadoop

2.1 概述

2.2 Hadoop项目结构

2.3 Hadoop的安装与使用

2.4 Hadoop集群的部署和使用

第3讲 分布式文件系统HDFS

3.1 分布式文件系统HDFS简介

3.2 HDFS相关概念

3.3 HDFS体系结构

3.4 HDFS存储原理

3.5 HDFS数据读写过程

3.6 HDFS编程实践

第4讲 分布式数据库HBase

4.1 HBase简介

4.2 HBase数据模型

4.3 HBase的实现原理

4.4 HBase运行机制

4.5 HBase应用方案

4.6 HBase安装配置和常用Shell命令

4.7 HBase常用Java API及应用实例

第5讲 NoSQL数据库

5.1 NoSQL概述

5.2 NoSQL与关系数据库的比较

5.3 NoSQL的四大类型

5.4 NoSQL的三大基石

5.5 从NoSQL到NewSQL数据库

5.6 文档数据库MongoDB

第6讲 云数据库

6.1 云数据库概述

6.2 云数据库产品

6.3 云数据库系统架构

6.4 Amazon AWS和云数据库

6.5 微软云数据库SQL Azure

6.6 云数据库实践

第7讲 MapReduce

7.1 MapReduce概述

7.2 MapReduce的体系结构

7.3 MapReduce工作流程

7.4 Shuffle过程原理

7.5 MapReduce应用程序执行过程

7.6 实例分析:WordCount

7.7 MapReduce的具体应用

7.8 MapReduce编程实践

第8讲 数据仓库Hive

8.1 数据仓库概念

8.2 Hive简介

8.3 SQL转换成MapReduce作业的原理

8.4 Impala

8.5 Hive编程实践

第9讲 Hadoop再探讨

9.1 Hadoop的优化与发展

9.2 HDFS2.0的新特性

9.3 新一代资源管理调度框架YARN

9.4 Hadoop生态系统中具有代表性的功能组件

第10讲 Spark

10.1 Spark概述

10.2 Spark生态系统

10.3 Spark运行架构

10.4 Spark SQL

10.5 Spark的部署和应用方式

10.6 Spark编程实践

第11讲 流计算

11.1 流计算概述

11.2 流计算处理流程

11.3 流计算的应用

11.4 开源流计算框架Storm

11.5 Spark Streaming、Samza以及三种流计算框架的比较

11.6 Storm编程实践

第12讲 图计算

12.1 图计算简介

12.2 Pregel简介

12.3 Pregel图计算模型

12.4 Pregel的C++ API

12.5 Pregel的体系结构

12.6 Pregel的应用实例——单源最短路径

12.7 Hama的安装和使用

第13讲 大数据在不同领域的应用

13.1 大数据应用概览

13.2 推荐系统

13.3 大数据在智能医疗和智能物流领域运用