四川捕鱼机

書名：大數據基礎與應用
作者名：趙國生王健宋一兵主編
本章字數： 858字
更新時間： 2021-12-15 16:00:24

2.2 Hadoop發展史及特點

1.Hadoop的發展歷程

關于Hadoop的起源，就不得不提到Google公司。Google在自身多年的搜索引擎業務中構建了突破性的GFS，從此文件系統進入分布式時代。而Hadoop來源于一款名為Google MapReduce的編程模型包。MapReduce框架可以把一個應用程序分解為許多并行計算指令，大量的計算節點運行非常巨大的數據集，一個典型例子就是在網絡數據上運行的搜索算法。

在2002-2004年間，Google以三大論文的發布向世界推送了其云計算的核心組成部分GFS、MapReduce以及BigTable。Google雖然沒有將其核心技術開源，但是這三篇論文已經向開源社區的開發者們指明了方向。

Doug Cutting使用Java語言對Google的云計算核心技術做了開源的實現。后來，Apache基金會整合Doug Cutting以及其他IT公司(如Facebook等)的貢獻成果，開發并推出了Hadoop生態系統。Hadoop是一個搭建在廉價PC上的分布式集群系統架構，它具有高可用性、高容錯性和高可擴展性等優點。由于它提供了一個開放式的平臺，用戶可以在完全不了解底層實現細節的情形下，開發適合自身應用的分布式程序。

2004年12月，Google發表了MapReduce論文，MapReduce允許跨服務器集群，運行超大規模并行計算。Doug Cutting意識到可以用MapReduce來解決Lucene的擴展問題。Doug Cutting根據GFS和MapReduce的思想創建了開源Hadoop框架。2006年1月，Doug Cutting加入Yahoo，領導Hadoop的開發。

2.Hadoop的特點

Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平臺。用戶可以輕松地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點。

1）高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。它假設計算元素和存儲會失敗，因此它維護多個工作數據副本，確保能夠針對失敗的節點重新分布處理。

2）高擴展性。Hadoop是在可用的計算機集簇間分配數據并完成計算任務的，這些集簇可以方便地擴展到數以千計的節點中。

3）高效性。Hadoop以并行的方式工作，能夠在節點之間動態地移動數據，并保證各個節點的動態平衡，因此處理速度非常快。

4）高容錯性。Hadoop能夠自動保存數據的多個副本，并且能夠自動將失敗的任務重新分配。

5）低成本。與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比，Hadoop是開源的，依賴于社區服務，項目的軟件成本因此會大大降低，任何人都可以使用。

Hadoop帶有用Java語言編寫的框架，也可以使用其他語言編寫。

官术网_书友最值得收藏!

大數據基礎與應用

2.2 Hadoop發展史及特點