01财经大数据面试题
01财经
大数据笔试题
1)选择题
1.HDFS 里面,blocksize 上的块大小默认是()
A 32MB B 64MB C 128MB D 256MB
2.HDFS 中的block默认保存几份?(
A 2 B 3 C 4 D不稳定
3.下面哪个程序负责 HDFS 数据存储。
A NameNode
B Jobtracker
C Datanode
D secondaryNameNode
E tasktracker
4.访问 hadoop+HA web的默认端口是()
A 50070
B 60010
C 8088
D 8020
5.访问 zookeeper 客户端的端口是()
A 9000 B 3888 C 2888 D 2181
6.提交mr作业时,由yarn来分配资源,那么yarn启动的一个进程名是()
A ResourceManage BApplicationMatser C NodeManage D RunJar
7.关于 SecondaryNameNode 哪项是正确的?()
A 它是 NameNode 的热备
B 它是内存没有要求
C 它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间
D SecondaryNameNode 应与 NameNode 部署到一个节点
8.下列项通常是集群的最主要瓶颈()
A 磁盘IO B CPU C 网络 D 内存
2)简述题
1、请说明hive中sort by,order by,cluster by, distribute by各代表什么意思
2、Hive数据倾斜如何通过参数来调优
3、spark-submit的时候如何引入多个外部jar包
4、spark cache和pesist的区别
5、简述spark广播变量和累加器
6、rdd.groupBykey().mapValue(_.sum)与rdd.reduceByKey(_*_)的区别
7、spark.yarn/executor.memoryOverhead和execoutor-memory的区别,以及其默认值