01财经大数据面试题

01财经

01财经大数据面试题

 

大数据笔试题

1)选择题

1.HDFS 里面,blocksize 上的块大小默认是()

A 32MB B 64MB C 128MB D 256MB

2.HDFS 中的block默认保存几份?(

A 2 B 3 C 4 D不稳定

3.下面哪个程序负责 HDFS 数据存储。

A NameNode

B Jobtracker

C Datanode

D secondaryNameNode

E tasktracker

4.访问 hadoop+HA web的默认端口是()

A 50070

B 60010

C 8088

D 8020

5.访问 zookeeper 客户端的端口是()

A 9000 B 3888 C 2888 D 2181

6.提交mr作业时,由yarn来分配资源,那么yarn启动的一个进程名是()

A ResourceManage BApplicationMatser C NodeManage D RunJar

7.关于 SecondaryNameNode 哪项是正确的?()

A 它是 NameNode 的热备

B 它是内存没有要求

C 它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间

D SecondaryNameNode 应与 NameNode 部署到一个节点

8.下列项通常是集群的最主要瓶颈()

A 磁盘IO B CPU C 网络 D 内存

2)简述题

1、请说明hive中sort by,order by,cluster by, distribute by各代表什么意思

2、Hive数据倾斜如何通过参数来调优

3、spark-submit的时候如何引入多个外部jar包

4、spark cache和pesist的区别

5、简述spark广播变量和累加器

6、rdd.groupBykey().mapValue(_.sum)与rdd.reduceByKey(_*_)的区别

7、spark.yarn/executor.memoryOverhead和execoutor-memory的区别,以及其默认值

大数据培训