2020-09-14

中关村在线面试题

2020-09-14

 

1)笔试

(1)下面哪个操作会使数据行数变大?

A.map B.flatmap C.reduceByKey D.zipWithIndex

“sc.parallelize([(1,2),(1,3),(2,3),(2,4),(3,1)]).reduceByKey(lambda x,y:x+y).count”操作中会产生()个stage?

A.1 B.2 C.3 D.5

(2)Spark streaming 中的DStream不支持的操作是()

union B.filter C.foreach D.updateStateByKey

(3)Spark streaming中用于调试输出数据的命令是?

(4)如何减少spark运行中的数据库连接数?

(5)如何减少spark运行中的分片(partitions)数?

有日志如下,请写出代码求得所有用户和活跃用户的总数及平均年龄。(活跃用户指连续两天都有访问记录的用户)

日期 用户 年龄

11,test_1,23

11,test_2,19

11,test_3,39

11,test_1,23

11,test_3,39

11,test_1,23

12,test_2,19

13,test_1,23

(6)hbase查询一条记录的方法是什么?Hbase写入一条记录的方法是什么?

(7)HDFS如何保证数据安全性?

(8)Kafka如何保证不同的订阅源都收到相同的一份内容?

(9)写出你知道的协同过滤算法的名称。

(10)写出你知道的聚类算法和分类算法名称。

(11)现有文章若干和用户已有的文章阅读日志,请描述思路为用户推荐未读过的10篇文章

大数据培训