初识Hadoop

文章目录

初识Hadoop


大数据是由结构化和非结构化数据组成。非结构化占比90%左右,通常是指图像、音频等。


技术支撑
大数据的兴起需要的技术支撑:

  1. 存储
  2. 计算
  3. 网络

1GB=1024MB,1TB=1024GB,1PB=1024TB


大数据的特性
当提到大数据的典型特性时,通常是4V:

  1. Variety(多样化)
  2. Velocity(快速化)
  3. Volume(大量化)
  4. Value(价值密度低,商业价值高)

大数据应用
针对不同的计算问题,大数据有不同的计算模式,一般将计算模式分为4种:

  • 批处理(MapReduce,Spark)
  • 流计算(S4+Storm+Flume)
  • 图计算(Google Pregel)
  • 查询分析计算(Dremel,Hive,Cassandra)

初识Hadoop


大数据技术的层次
数据处理->数据存储与管理->数据处理与分析->数据隐私与安全
核心层次是中间两层:数据存储与管理,数据处理与分析
核心层次涉及到两大核心技术:

  • 分布式存储
  • 分布式处理

大数据、云计算和物联网之间的关系
初识Hadoop

云计算

云计算是通过网络以服务的方式为用户提供非常廉价的IT资源。
主要解决了两大问题:分布式存储和分布式处理。
主要特性:虚拟化和多租户。
云计算有3种模式:

  • 公有云(面向所有公众)
  • 私有云(面向企业内部)
  • 混合云(面向企业内部)

云计算的层次模型:
初识Hadoop

物联网

物联网(IoT:The Internet of Things)是物物相连的互联网,是互联网的延伸。
层次结构(由低到高):感知层->网络层->处理层->应用层