- 大數(shù)據(jù)基礎(chǔ)與應用
- 趙國生 王健 宋一兵主編
- 282字
- 2021-12-15 16:00:28
第3章 分布式文件系統(tǒng)HDFS
大數(shù)據(jù)時代必須解決海量數(shù)據(jù)的高效存儲問題,為此,Google開發(fā)了分布式文件系統(tǒng)(Google File System,GFS),通過網(wǎng)絡實現(xiàn)文件在多臺機器上的分布式存儲,較好地滿足了大規(guī)模數(shù)據(jù)存儲的需求。Hadoop分布式文件系統(tǒng)HDFS是針對GFS的開源實現(xiàn),它是Hadoop兩大核心部分之一,提供了在廉價服務器集群中進行大規(guī)模分布式文件存儲的能力。HDFS具有很好的容錯能力,并且兼容廉價的硬件設備,因此,可以以較低的成本,利用現(xiàn)有機器實現(xiàn)大流量和大數(shù)據(jù)量的讀寫工作。
本章首先介紹分布式文件系統(tǒng)的基本概念、結(jié)構(gòu)和設計需求,然后介紹HDFS,詳細闡述它的重要概念、體系結(jié)構(gòu)、存儲原理和讀寫過程,最后介紹一些HDFS編程實踐方面的知識。