2020年智慧图真实大数据面试题分享
智慧图
1)画出自己工作主要参与的业务架构和技术架构并标注自己实现的部分
要求:写出大数据相关系统的版本号
2)有50万个不重复的整数,从中随机取出不重复的10万个整数。
要:执行时间尽可能少,代码实现(开发语言不限,不要求用MR方式解决)
3)举例一个工作中的业务场景,描述MR的过程
4)kafka或flume运行机制及设计实现描述
5)统计一个月的日志,根据日志中的用户id 统计uv和新增的uv。每月第一天新增的uv,等于当天的uv;第二天的新增uv等于二天的uv排除第一天的uv;第三天新增的uv等于第三天 的uv排除前两天的uv。
要求:内存中无法存储整月id的uv进行排重处理,导致io调用频繁。如何优化?画图描述优化此业务的处理过程。
6)Linux常用过的命令及参数。(排除一下命令cd ls vi)
要求:命令不少于3个,每个命令至少2个参数描述