流式计算storm介绍

------流式计算是什么

流式计算：数据实时产生、数据实时传输、数据实时计算、实时展示

代表技术：Flume实时获取数据、Kafka/metaq实时数据存储、Storm/JStorm实时数据计算、Redis实时结果缓存、持久化存储(mysql)。

一句话总结：将源源不断产生的数据实时收集并实时计算，尽可能快的得到计算结果

-------storm是什么

Flume实时采集，低延迟

Kafka消息队列，低延迟

Storm实时计算，低延迟

Redis实时存储，低延迟

Storm用来实时处理数据，特点：低延迟、高可用、分布式、可扩展、数据不丢失。提供简单容易理解的接口，便于开发。

海量数据？数据类型很多，产生数据的终端很多，处理数据能力增强

------ storm和hadoop的区别

Storm用于实时计算，Hadoop用于离线计算。

Storm处理的数据保存在内存中，源源不断；Hadoop处理的数据保存在文件系统中，一批一批。

Storm的数据通过网络传输进来；Hadoop的数据保存在磁盘中。

Storm与Hadoop的编程模型相似

流式计算storm介绍

Job：任务名称

JobTracker：项目经理

TaskTracker：开发组长、产品经理

Child:负责开发的人员

Mapper/Reduce:开发人员中的两种角色，一种是服务器开发、一种是客户端开发

Topology:任务名称

Nimbus:项目经理

Supervisor:开组长、产品经理

Worker:开人员

Spout/Bolt：开人员中的两种角色，一种是服务器开发、一种是客户端开发