10小时入门大数据(一)------大数据概述
10小时入门大数据(一)------大数据概述
1、环境参数
Linux—CentOS(6.4)
Hadoop—CDH(5.7)
开发工具:IDEA
2、大数据生态圈
Hadoop
spark
3、大数据背景
无处不在的大数据:科学数据、金融数据、物联网数据、交通数据、社交网络数据、零售数据等
4、大数据基本概念
4V特征:Volume、Variety、Value、Velocity
- Volume:大量,既然叫大数据,那么数据量肯定得大
- Variety:多样性,数据可以多种结构,可以是结构性数据、半结构性数据以及非结构性数据
- Value:价值,这些大量的数据需要能够被挖掘出有价值的数据,因为无价值的数据只是一堆占用存储空间的垃圾
- Velocity:高速,数据的处理速度要快,时效性强,因为很多场景下要实时更新、检测数据
5、大数据解决的问题
batch:分批处理
大数据是要用来从中挖掘有价值的数据的,如果数据不能给企业带来价值,不能给用户带来更好的体验,那么这些数据就是无用的。而从数据中挖掘价值就是大数据要解决的问题,这就好像淘金、挖矿一样,我们利用大数据技术从海量数据中挖掘有用的数据,剔除无用的数据
6、大数据涉及技术
- 数据采集:将分散的数据都采集起来,集中在一起,才能够进行数据的分析
- 数据存储:将大量的数据采集起来后,存储就是个问题,需要存储空间足够大
- 数据处理、分析、挖掘:存储的问题解决后,才开始对这些数据进行处理,分析、挖掘有价值的数据出来
- 可视化:挖掘出来的数据进行可视化、图形化后呈现给别人
7、挑战
- 1)对现有数据库管理技术的挑战
海量的数据想要存储到传统的关系型数据库是不太现实的,虽然数据库可以进行集群,但是基本上也不能处理TB级以上的数据分析的,所以现阶段无法使用结构化的查询及处理去解决这些问题 - 2)经典数据库并没有考虑到数据的多类别
关系型数据库的结构都是库 >> 表 >> 字段的关系结构,而大数据具有数据多样化的特征,所以不好存储 - 3)实时性的技术挑战
数据所产生的价值会随着时间的推移而降低,所以要让数据实时展现是个问题 - 4)网络架构、数据中心、运维的挑战
由于数据一直呈大幅增长的状态,而数据又要实时地呈现,这对网络传输上是一个挑战。而且数据量大,肯定得多台服务器进行存储,这就给数据中心以及运维带来一定的挑战 - 数据隐私
- 数据源复杂多样性
8、如何对大数据进行存储和分析
系统瓶颈:存储容量、读写速度、计算效率
Google大数据技术:MapReduce、Big Table GFS
谷歌三大论文地址:
中文版:
http://blog.bizcloudsoft.com/wp-content/uploads/Google-Bigtable中文版_1.0.pdf
http://blog.bizcloudsoft.com/wp-content/uploads/Google-File-System中文版_1.0.pdf
http://blog.bizcloudsoft.com/wp-content/uploads/Google-MapReduce中文版_1.0.pdf
英文版:
http://pan.baidu.com/s/1o6G8PGA(百度网盘下载)
9、如何学好大数据
- 官网、官网、官网
- 英文、英文、英文
- 项目实战对知识点进行巩固和融会贯通
- 社区活动
- 切记:对动手、多练习、坚持