电信项目总结

一、项目整体架构

电信项目总结

二、数据生产模块介绍

1、数据字段
电信项目总结

2、数据产生方法
通过编写 java 代码,模拟生产数据。然后将代码打成 jar 包,放在服务器上,运行 jar 包,将数据存储在文件中。

三、数据采集模块介绍

1、配置 kafka,启动 zookeeper 和 kafka 集群。
2、创建 kafka 主题。
3、启动 kafka 控制台消费者(此消费者只用于测试使用)。
4、配置 flume,监控日志文件。
5、启动 flume 监控任务。
6、运行日志生产脚本。
7、观察测试。

四、数据存储模块介绍

rowkey 设计原则
1、长度原则
最大值 64KB,推荐长度为10 ~ 100byte。
最好 8 的倍数,能短则短,rowkey如果太长会影响性能。
2、唯一原则 : rowkey应该具备唯一性。
3、散列原则
(1) 盐值散列:不能使用时间戳直接作为rowkey
在rowkey前增加随机数
(2) 字符串反转 :1312312334342, 1312312334345
电话号码:133 + 0123 + 4567
(3) 计算分区号:hash

协处理器的使用
1、创建类
2、让表找到协处理类(和表有关联)
3、将项目打成 jar 包发布到 hbase 中(关联的 jar 包也需要发布),并且需要分发。

五、数据统计模块介绍

编写 mapreduce 程序,统计用户的通话次数(主叫 + 被叫),之后自定义 outputformat,将统计数据存储到 mysql 中。

六、数据可视化模块介绍

用 ssm 框架搭建一个 web 服务器,用 echarts 可视化统计结果。