Storm-入门
Storm是什么
Strom技术网站
- 官网;srorm.apache.org
- githup: guithup.com/apache/storm
Strom对比Hadoop
- 数据源/处理领域:Hadoop数据存储在HDFS
- 处理过程不同:
- hadoop:map+reduce
- Storm:spout+bolt
- 进程是否结束
- Hadoop:启动的时候申请资源,作业全部跑完之后资源才可以释放
- Strom:没有结束状态
- 处理速度
- Hadoop:
- Storm:HDFS上的TB级数据
- 使用场景
- Storm:
- realtimr analytics
- online machine learning
- 不间断计算
- 分布式RPC
- ETL and more
- Hadoop:
- Storm:
Strom对比SparkStreaming
Sparkstreaming是建立在spark的基础上,集合多种场景计算。一站式解决各种场景问题。storm在各种场景之间进行切换的时候需要
Storm的实时性高,结果直接落地。不需要进行下一步计算
Storm优势
- 编程模型 spout+bolt
- 扩展性:分布式
- 可靠性:可以保证spout发出的数据仅仅可以处理一次。工作进程的可靠性。
- 容错性:
- 多语言:
Storm应用现状以及发展趋势
- 应用现状
- 雅虎,推特。。。。
- 发展趋势
- 免费开源分布式处理框架,依赖于社区的发展
- 企业的需求
- 大数据相关的大会,Storm主题的数量不断上升
- 互联网数据量增长庞大,阿里Jstorm
Storm应用案例
- Storm在电商行业的应用
- 一淘实时分析系统
- 携程网站性能监控
- 阿里妈妈用户画像:用户兴趣基于用户的额历史行为,用户的实时查询,用户的实时点击,用户的地理信息。其中实时查询,实时点击等用户行为都是实时数据。
- Storm在电信行业的应用
- 论文:
- 基于Storm的诈骗电话分析系统的设计与实现
- 论文: