思特奇大数据岗位面试题

思特奇面试题

思特奇大数据岗位面试题

 

1)笔试

(1)在hadoop中定义的主要共用InputFormats中,哪一个是默认值:()

(A) .TextInputFormat

(B) .KeyValueInputFormat

(C) .SequenceFileInputFormat

(2)两个类TextInputFormat 和TextInputFormat 的区别是什么?

(3)在一个hadoop任务中,什么是InputSplit?

(4)hadoop框架中文件拆分是怎么被调用的?

(5)参考下面的MR系统的场景:

--hdfs块的大小为64MB

--输入类型为FileInputFormat

--有三个文件的大小分别是:64KB 65MB 127MB

(6)Hadoop框架会把这些文件拆分为多少块?

(7)Hadoop中RecordReader的作用是什么?

(8)Map阶段结束后,Hadoop框架会处理:Partitioning Shuffle和Sort,在这个阶段都发生了什么?

(9)如果没有定义partitioner,那数据在被送达reduce前是如何被分区的?

(10)分别举例什么情况使用cmbiner,什么情况不会使用?

(11)Hadoop中job和Tasks之间的区别是什么?

(12)Hadoop中通过拆分任务到多个节点运行来实现并行计算,但某些节点运行较慢会拖慢整个任务的运行,hadoop采用何种机制应对这个情况?

 

(13)流API中的什么特性带来可以使map reduce任务可以以不同语言(如Perl,ruby,awk等)实现的灵活性?

(14)有可能使HashMap任务输出到多少个目录中么?如果可以,怎么做?

(15)如何为一个hadoop任务设置mapper的数量?

(16)如何为一个hadoop任务设置要创建reducer的数量?

大数据培训