1.storm简介

Twitter将Storm正式开源了，这是一个分布式的、容错的实时计算系统，它被托管在GitHub上，遵循 Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统，BackType现在已在Twitter麾下。GitHub上的最新版本是Storm 0.8.0，基本是用Clojure写的。
Storm为分布式实时计算提供了一组通用原语，可被用于“流处理”之中，实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm也可被用于“连续计算”（continuous computation），对数据流做连续查询，在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”，以并行的方式运行昂贵的运算。 Storm的主工程师Nathan Marz表示：
Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算，Storm用于实时处理，就好比 Hadoop 用于批处理。Storm保证每个消息都会得到处理，而且它很快——在一个小集群中，每秒可以处理数以百万计的消息。更棒的是你可以使用任意编程语言来做开发。
Storm的主要特点如下：
简单的编程模型。类似于MapReduce降低了并行批处理复杂性，Storm降低了进行实时处理的复杂性。
可以使用各种编程语言。你可以在Storm之上使用各种编程语言。默认支持Clojure、Java、Ruby和Python。要增加对其他语言的支持，只需实现一个简单的Storm通信协议即可。
容错性。Storm会管理工作进程和节点的故障。
水平扩展。计算是在多个线程、进程和服务器之间并行进行的。
可靠的消息处理。Storm保证每个消息至少能得到一次完整处理。任务失败时，它会负责从消息源重试消息。
快速。系统的设计保证了消息能得到快速的处理，使用ØMQ作为其底层消息队列。
本地模式。Storm有一个“本地模式”，可以在处理过程中完全模拟Storm集群。这让你可以快速进行开发和单元测试。

2.storm架构

Storm学习--------storm简介，架构，分组策略

Nimbus

---- 主节点上的守护进程
----资源调度
----任务分配
----jar包上传

spuervisor

----从节点上的守护进程
----负责开启或关闭worker进程
-----接收Nimbus发送的任务

worker

-----申请资源，根据task-id获取spout/bolt任务，创建Executor线程，执行任务。多个Executor共享worker资源。默认一个Executor执行一个任务，也可以一个Executor执行多个任务，但是多个任务类型必须为同类型的任务，即spout/bolt.

3.storm任务提交流程

Storm学习--------storm简介，架构，分组策略

4.目录树

Storm学习--------storm简介，架构，分组策略

5.分发策略

1. Shuffle Grouping
随机分组，随机派发stream里面的tuple，保证每个bolt task接收到的tuple数目大致相同。
轮询，平均分配
假如有6条数据1,2,3,4,5,6：
Storm学习--------storm简介，架构，分组策略
2. Fields Grouping
按字段分组，比如，按"user-id"这个字段来分组，那么具有同样"user-id"的 tuple 会被分到相同的Bolt里的一个task，而不同的"user-id"则可能会被分配到不同的task。
假如根据name字段分组：
Storm学习--------storm简介，架构，分组策略
3. All Grouping
广播发送，对于每一个tuple，所有的bolts都会收到
加入数据为1，2，3

4. Global Grouping
全局分组，把tuple分配给task id最低的task 。
假如数据是1，2，3

5. None Grouping
不分组，这个分组的意思是说stream不关心到底怎样分组。目前这种分组和Shuffle grouping是一样的效果。有一点不同的是storm会把使用none grouping的这个bolt放到这个bolt的订阅者同一个线程里面去执行（未来Storm如果可能的话会这样设计）。

6. Direct Grouping
指向型分组，这是一种比较特别的分组方法，用这种分组意味着消息（tuple）的发送者指定由消息接收者的哪个task处理这个消息。只有被声明为 Direct Stream 的消息流可以声明这种分组方法。而且这种消息tuple必须使用 emitDirect 方法来发射。消息处理者可以通过 TopologyContext 来获取处理它的消息的task的id (OutputCollector.emit方法也会返回task的id)
7. Local or shuffle grouping
本地或随机分组。如果目标bolt有一个或者多个task与源bolt的task在同一个工作进程中，tuple将会被随机发送给这些同进程中的tasks。否则，和普通的Shuffle Grouping行为一致
8.customGrouping
自定义，相当于mapreduce那里自己去实现一个partition一样。

Storm学习--------storm简介，架构，分组策略

1.storm简介

2.storm架构

Nimbus

spuervisor

worker

3.storm任务提交流程

4.目录树

5.分发策略

相关推荐