中关村在线面试题

2020-09-14

1）笔试

（1）下面哪个操作会使数据行数变大？

A.map B.flatmap C.reduceByKey D.zipWithIndex

“sc.parallelize([(1,2),(1,3),(2,3),(2,4),(3,1)]).reduceByKey(lambda x,y:x+y).count”操作中会产生()个stage？

A.1 B.2 C.3 D.5

（2）Spark streaming 中的DStream不支持的操作是()

union B.filter C.foreach D.updateStateByKey

（3）Spark streaming中用于调试输出数据的命令是？

（4）如何减少spark运行中的数据库连接数？

（5）如何减少spark运行中的分片(partitions)数？

有日志如下，请写出代码求得所有用户和活跃用户的总数及平均年龄。(活跃用户指连续两天都有访问记录的用户)

日期用户年龄

11,test_1,23

11,test_2,19

11,test_3,39

11,test_1,23

11,test_3,39

11,test_1,23

12,test_2,19

13,test_1,23

（6）hbase查询一条记录的方法是什么？Hbase写入一条记录的方法是什么？

（7）HDFS如何保证数据安全性？

（8）Kafka如何保证不同的订阅源都收到相同的一份内容？

（9）写出你知道的协同过滤算法的名称。

（10）写出你知道的聚类算法和分类算法名称。

（11）现有文章若干和用户已有的文章阅读日志，请描述思路为用户推荐未读过的10篇文章

2020-09-14