思特奇面试题

思特奇大数据岗位面试题

1）笔试

（1）在hadoop中定义的主要共用InputFormats中，哪一个是默认值:()

(A) .TextInputFormat

(B) .KeyValueInputFormat

（2）两个类TextInputFormat 和TextInputFormat 的区别是什么？

（3）在一个hadoop任务中，什么是InputSplit?

（4）hadoop框架中文件拆分是怎么被调用的？

（5）参考下面的MR系统的场景:

--hdfs块的大小为64MB

--输入类型为FileInputFormat

--有三个文件的大小分别是:64KB 65MB 127MB

（6）Hadoop框架会把这些文件拆分为多少块？

（7）Hadoop中RecordReader的作用是什么？

（8）Map阶段结束后，Hadoop框架会处理:Partitioning Shuffle和Sort，在这个阶段都发生了什么？

（9）如果没有定义partitioner，那数据在被送达reduce前是如何被分区的？

（10）分别举例什么情况使用cmbiner，什么情况不会使用？

（11）Hadoop中job和Tasks之间的区别是什么？

（12）Hadoop中通过拆分任务到多个节点运行来实现并行计算，但某些节点运行较慢会拖慢整个任务的运行，hadoop采用何种机制应对这个情况？

（13）流API中的什么特性带来可以使map reduce任务可以以不同语言(如Perl，ruby，awk等)实现的灵活性？

（14）有可能使HashMap任务输出到多少个目录中么？如果可以，怎么做？

（15）如何为一个hadoop任务设置mapper的数量？

（16）如何为一个hadoop任务设置要创建reducer的数量？

思特奇大数据岗位面试题