流式计算storm介绍

------流式计算是什么

流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示

         代表技术:Flume实时获取数据、Kafka/metaq实时数据存储、Storm/JStorm实时数据计算、Redis实时结果缓存、持久化存储(mysql)。

         一句话总结:将源源不断产生的数据实时收集并实时计算,尽可能快的得到计算结果

-------storm是什么

        Flume实时采集,低延迟

         Kafka消息队列,低延迟

         Storm实时计算,低延迟

         Redis实时存储,低延迟

 

         Storm用实时处理数据,特点:低延迟、高可用、分布式、可扩展、数据不丢失。提供简单容易理解的接口,便于开发。      

         海量数据?数据类型很多,产生数据的终端很多,处理数据能力增强


------ storm和hadoop的区别

 Storm用于实时计算,Hadoop用于离线计算。

 Storm处理的数据保存在内存中,源源不断;Hadoop处理的数据保存在文件系统中,一批一批。

 Storm的数据通过网络传输进来;Hadoop的数据保存在磁盘中。

  Storm与Hadoop的编程模型相似

流式计算storm介绍


Job:任务名称

JobTracker:项目经理

TaskTracker:开发组长、产品经理

Child:负责开发的人员

Mapper/Reduce:开发人员中的两种角色,一种是服务器开发、一种是客户端开发

 

Topology:任务名称

Nimbus:项目经理

Supervisor:开组长、产品经理

Worker:开人员

Spout/Bolt:开人员中的两种角色,一种是服务器开发、一种是客户端开发