HDFS分布式文件系统概括

Hadoop文件系统

 Hadoop整合了众多底层文件系统,如本地文件系统,HDFS文件系统,HFTP,HSFTP,HAR,PTP,S3本地,S3基于块。

HDFS分布式文件系统概括
Hadoop文件系统

1.HDFS入门

HDFS是Hadoop核心项目的子项目,用于分布式数据存储,官方的描述是:HDFS可以运行在廉价的服务器上,为海量数据存储提供,高可靠,可容错,高扩展,高获得,高吞吐率等特征。

2.HDFS的优缺点

优点:(1)处理超大文件(MB-TB),Hadoop并不怕大,相反文件过小会造成Hadoop集群性能有所下降。

         (2)运行与廉价的服务器上,Hadoop可以运行在普通的廉价机上,而无需部署昂贵的小型机,降低公司运营成本。

         (3)流式的访问数据,HDFS提供一次写入多次读取的服务,例如你向HDFS上存储了一个文件后续你有多个作业都需要使用               这个文件,那么只需要通过集群来读取前面已经存储好的数据即可。

缺点:(1)不适合低延迟的数据访问.

        (2)无法高效存储大量小文件,HDFS中的元数据包含许多信息(如:文件大小,父目录信息,文件块情况,副本个数等),存放              在NameNode上,HDFS所能容纳的文件数目是由NameNode的内存决定的,一旦小文件过多,会导致NameNode压力增                大,影响集群性能。