官术网_书友最值得收藏!

2.2 Hadoop發展史及特點

1.Hadoop的發展歷程

關于Hadoop的起源,就不得不提到Google公司。Google在自身多年的搜索引擎業務中構建了突破性的GFS,從此文件系統進入分布式時代。而Hadoop來源于一款名為Google MapReduce的編程模型包。MapReduce框架可以把一個應用程序分解為許多并行計算指令,大量的計算節點運行非常巨大的數據集,一個典型例子就是在網絡數據上運行的搜索算法。

在2002-2004年間,Google以三大論文的發布向世界推送了其云計算的核心組成部分GFS、MapReduce以及BigTable。Google雖然沒有將其核心技術開源,但是這三篇論文已經向開源社區的開發者們指明了方向。

Doug Cutting使用Java語言對Google的云計算核心技術做了開源的實現。后來,Apache基金會整合Doug Cutting以及其他IT公司(如Facebook等)的貢獻成果,開發并推出了Hadoop生態系統。Hadoop是一個搭建在廉價PC上的分布式集群系統架構,它具有高可用性、高容錯性和高可擴展性等優點。由于它提供了一個開放式的平臺,用戶可以在完全不了解底層實現細節的情形下,開發適合自身應用的分布式程序。

2004年12月,Google發表了MapReduce論文,MapReduce允許跨服務器集群,運行超大規模并行計算。Doug Cutting意識到可以用MapReduce來解決Lucene的擴展問題。Doug Cutting根據GFS和MapReduce的思想創建了開源Hadoop框架。2006年1月,Doug Cutting加入Yahoo,領導Hadoop的開發。

2.Hadoop的特點

Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平臺。用戶可以輕松地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點。

1)高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。

2)高擴展性。Hadoop是在可用的計算機集簇間分配數據并完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。

3)高效性。Hadoop以并行的方式工作,能夠在節點之間動態地移動數據,并保證各個節點的動態平衡,因此處理速度非常快。

4)高容錯性。Hadoop能夠自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配。

5)低成本。與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比,Hadoop是開源的,依賴于社區服務,項目的軟件成本因此會大大降低,任何人都可以使用。

Hadoop帶有用Java語言編寫的框架,也可以使用其他語言編寫。

主站蜘蛛池模板: 竹北市| 博爱县| 格尔木市| 彭泽县| 静安区| 土默特左旗| 陆河县| 红安县| 凤台县| 海盐县| 公主岭市| 溧水县| 温泉县| 六枝特区| 广水市| 海晏县| 明光市| 开远市| 昔阳县| 绥江县| 北安市| 文昌市| 桓仁| 虞城县| 大化| 鄄城县| 陆良县| 宁强县| 宽甸| 保定市| 鹰潭市| 陇西县| 晋中市| 平谷区| 壶关县| 蕲春县| 眉山市| 贡山| 吉林省| 涞水县| 庆阳市|