2020-09-14
中关村在线面试题
1)笔试
(1)下面哪个操作会使数据行数变大?
A.map B.flatmap C.reduceByKey D.zipWithIndex
“sc.parallelize([(1,2),(1,3),(2,3),(2,4),(3,1)]).reduceByKey(lambda x,y:x+y).count”操作中会产生()个stage?
A.1 B.2 C.3 D.5
(2)Spark streaming 中的DStream不支持的操作是()
union B.filter C.foreach D.updateStateByKey
(3)Spark streaming中用于调试输出数据的命令是?
(4)如何减少spark运行中的数据库连接数?
(5)如何减少spark运行中的分片(partitions)数?
有日志如下,请写出代码求得所有用户和活跃用户的总数及平均年龄。(活跃用户指连续两天都有访问记录的用户)
日期 用户 年龄
11,test_1,23
11,test_2,19
11,test_3,39
11,test_1,23
11,test_3,39
11,test_1,23
12,test_2,19
13,test_1,23
(6)hbase查询一条记录的方法是什么?Hbase写入一条记录的方法是什么?
(7)HDFS如何保证数据安全性?
(8)Kafka如何保证不同的订阅源都收到相同的一份内容?
(9)写出你知道的协同过滤算法的名称。
(10)写出你知道的聚类算法和分类算法名称。
(11)现有文章若干和用户已有的文章阅读日志,请描述思路为用户推荐未读过的10篇文章