10小时入门大数据(一)------大数据概述

10小时入门大数据(一)------大数据概述

1、环境参数
Linux—CentOS(6.4)
Hadoop—CDH(5.7)
开发工具:IDEA

2、大数据生态圈
Hadoop
spark

3、大数据背景
无处不在的大数据:科学数据、金融数据、物联网数据、交通数据、社交网络数据、零售数据等

4、大数据基本概念
4V特征:Volume、Variety、Value、Velocity

  • Volume:大量,既然叫大数据,那么数据量肯定得大
  • Variety:多样性,数据可以多种结构,可以是结构性数据、半结构性数据以及非结构性数据
  • Value:价值,这些大量的数据需要能够被挖掘出有价值的数据,因为无价值的数据只是一堆占用存储空间的垃圾
  • Velocity:高速,数据的处理速度要快,时效性强,因为很多场景下要实时更新、检测数据

5、大数据解决的问题
10小时入门大数据(一)------大数据概述
batch:分批处理
大数据是要用来从中挖掘有价值的数据的,如果数据不能给企业带来价值,不能给用户带来更好的体验,那么这些数据就是无用的。而从数据中挖掘价值就是大数据要解决的问题,这就好像淘金、挖矿一样,我们利用大数据技术从海量数据中挖掘有用的数据,剔除无用的数据

6、大数据涉及技术

  • 数据采集:将分散的数据都采集起来,集中在一起,才能够进行数据的分析
  • 数据存储:将大量的数据采集起来后,存储就是个问题,需要存储空间足够大
  • 数据处理、分析、挖掘:存储的问题解决后,才开始对这些数据进行处理,分析、挖掘有价值的数据出来
  • 可视化:挖掘出来的数据进行可视化、图形化后呈现给别人

7、挑战

  • 1)对现有数据库管理技术的挑战
    海量的数据想要存储到传统的关系型数据库是不太现实的,虽然数据库可以进行集群,但是基本上也不能处理TB级以上的数据分析的,所以现阶段无法使用结构化的查询及处理去解决这些问题
  • 2)经典数据库并没有考虑到数据的多类别
    关系型数据库的结构都是库 >> 表 >> 字段的关系结构,而大数据具有数据多样化的特征,所以不好存储
  • 3)实时性的技术挑战
    数据所产生的价值会随着时间的推移而降低,所以要让数据实时展现是个问题
  • 4)网络架构、数据中心、运维的挑战
    由于数据一直呈大幅增长的状态,而数据又要实时地呈现,这对网络传输上是一个挑战。而且数据量大,肯定得多台服务器进行存储,这就给数据中心以及运维带来一定的挑战
  • 数据隐私
  • 数据源复杂多样性

8、如何对大数据进行存储和分析
系统瓶颈:存储容量、读写速度、计算效率
Google大数据技术:MapReduce、Big Table GFS
谷歌三大论文地址:
中文版:
http://blog.bizcloudsoft.com/wp-content/uploads/Google-Bigtable中文版_1.0.pdf
http://blog.bizcloudsoft.com/wp-content/uploads/Google-File-System中文版_1.0.pdf
http://blog.bizcloudsoft.com/wp-content/uploads/Google-MapReduce中文版_1.0.pdf
英文版:
http://pan.baidu.com/s/1o6G8PGA(百度网盘下载)
9、如何学好大数据

  • 官网、官网、官网
  • 英文、英文、英文
  • 项目实战对知识点进行巩固和融会贯通
  • 社区活动
  • 切记:对动手、多练习、坚持