思特奇大数据岗位面试题
思特奇面试题
1)笔试
(1)在hadoop中定义的主要共用InputFormats中,哪一个是默认值:()
(A) .TextInputFormat
(B) .KeyValueInputFormat
(C) .SequenceFileInputFormat
(2)两个类TextInputFormat 和TextInputFormat 的区别是什么?
(3)在一个hadoop任务中,什么是InputSplit?
(4)hadoop框架中文件拆分是怎么被调用的?
(5)参考下面的MR系统的场景:
--hdfs块的大小为64MB
--输入类型为FileInputFormat
--有三个文件的大小分别是:64KB 65MB 127MB
(6)Hadoop框架会把这些文件拆分为多少块?
(7)Hadoop中RecordReader的作用是什么?
(8)Map阶段结束后,Hadoop框架会处理:Partitioning Shuffle和Sort,在这个阶段都发生了什么?
(9)如果没有定义partitioner,那数据在被送达reduce前是如何被分区的?
(10)分别举例什么情况使用cmbiner,什么情况不会使用?
(11)Hadoop中job和Tasks之间的区别是什么?
(12)Hadoop中通过拆分任务到多个节点运行来实现并行计算,但某些节点运行较慢会拖慢整个任务的运行,hadoop采用何种机制应对这个情况?
(13)流API中的什么特性带来可以使map reduce任务可以以不同语言(如Perl,ruby,awk等)实现的灵活性?
(14)有可能使HashMap任务输出到多少个目录中么?如果可以,怎么做?
(15)如何为一个hadoop任务设置mapper的数量?
(16)如何为一个hadoop任务设置要创建reducer的数量?