初识Hadoop
文章目录
初识Hadoop
大数据是由结构化和非结构化数据组成。非结构化占比90%左右,通常是指图像、音频等。
技术支撑
大数据的兴起需要的技术支撑:
- 存储
- 计算
- 网络
1GB=1024MB,1TB=1024GB,1PB=1024TB
大数据的特性
当提到大数据的典型特性时,通常是4V:
- Variety(多样化)
- Velocity(快速化)
- Volume(大量化)
- Value(价值密度低,商业价值高)
大数据应用
针对不同的计算问题,大数据有不同的计算模式,一般将计算模式分为4种:
- 批处理(MapReduce,Spark)
- 流计算(S4+Storm+Flume)
- 图计算(Google Pregel)
- 查询分析计算(Dremel,Hive,Cassandra)
大数据技术的层次
数据处理->数据存储与管理->数据处理与分析->数据隐私与安全
核心层次是中间两层:数据存储与管理,数据处理与分析
核心层次涉及到两大核心技术:
- 分布式存储
- 分布式处理
大数据、云计算和物联网之间的关系
云计算
云计算是通过网络以服务的方式为用户提供非常廉价的IT资源。
主要解决了两大问题:分布式存储和分布式处理。
主要特性:虚拟化和多租户。
云计算有3种模式:
- 公有云(面向所有公众)
- 私有云(面向企业内部)
- 混合云(面向企业内部)
云计算的层次模型:
物联网
物联网(IoT:The Internet of Things)是物物相连的互联网,是互联网的延伸。
层次结构(由低到高):感知层->网络层->处理层->应用层