Hadoop简介和相关集群配置

hadoop:

一个分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。包含HDFS,yarn,MapReduce。

广义的Hadoop指的是Hadoop生态系统,生态系统中的每一子系统只解决某一特定的问题域。

Hadoop简介和相关集群配置




Hadoop是开源的,社区活跃度很高,涉及到分布式存储和计算的方方面面。

HDFS:

HDFS是1个master(NameNode)带N个(DataNode)的

一个文件会被拆分成多个block,blockSize==128M

NN:1)负责元数据的管理(文件名,副本系数,Block存放的DN)

          2)负责客户端请求的响应

DN:1)负责存储用户的文件对应的数据块(Block)

                    2)定期向NN发送心跳包,汇报健康状况

建议NN和DN部署在不同的节点上

HDFS相关配置:

            hadoop-env.sh :配置jdk

            core-site.xml: <fs.defaultFS><hadoop.tmp.dir>

            hdfs-site.xml:<dfs.replication>