- 大數據基礎與應用
- 趙國生 王健 宋一兵主編
- 858字
- 2021-12-15 16:00:24
2.2 Hadoop發展史及特點
1.Hadoop的發展歷程
關于Hadoop的起源,就不得不提到Google公司。Google在自身多年的搜索引擎業務中構建了突破性的GFS,從此文件系統進入分布式時代。而Hadoop來源于一款名為Google MapReduce的編程模型包。MapReduce框架可以把一個應用程序分解為許多并行計算指令,大量的計算節點運行非常巨大的數據集,一個典型例子就是在網絡數據上運行的搜索算法。
在2002-2004年間,Google以三大論文的發布向世界推送了其云計算的核心組成部分GFS、MapReduce以及BigTable。Google雖然沒有將其核心技術開源,但是這三篇論文已經向開源社區的開發者們指明了方向。
Doug Cutting使用Java語言對Google的云計算核心技術做了開源的實現。后來,Apache基金會整合Doug Cutting以及其他IT公司(如Facebook等)的貢獻成果,開發并推出了Hadoop生態系統。Hadoop是一個搭建在廉價PC上的分布式集群系統架構,它具有高可用性、高容錯性和高可擴展性等優點。由于它提供了一個開放式的平臺,用戶可以在完全不了解底層實現細節的情形下,開發適合自身應用的分布式程序。
2004年12月,Google發表了MapReduce論文,MapReduce允許跨服務器集群,運行超大規模并行計算。Doug Cutting意識到可以用MapReduce來解決Lucene的擴展問題。Doug Cutting根據GFS和MapReduce的思想創建了開源Hadoop框架。2006年1月,Doug Cutting加入Yahoo,領導Hadoop的開發。
2.Hadoop的特點
Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平臺。用戶可以輕松地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點。
1)高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。
2)高擴展性。Hadoop是在可用的計算機集簇間分配數據并完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。
3)高效性。Hadoop以并行的方式工作,能夠在節點之間動態地移動數據,并保證各個節點的動態平衡,因此處理速度非常快。
4)高容錯性。Hadoop能夠自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配。
5)低成本。與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比,Hadoop是開源的,依賴于社區服務,項目的軟件成本因此會大大降低,任何人都可以使用。
Hadoop帶有用Java語言編寫的框架,也可以使用其他語言編寫。
- 藥用高分子材料(第三版)
- 2020年內蒙古自治區選聘大學生村官考試《基本素質測試》題庫【真題精選+章節題庫+模擬試題】
- 朱紹侯《中國古代史(下冊)》(第5版)配套題庫【名校考研真題+章節題庫+模擬試題】
- STM32嵌入式系統設計與應用
- 《財富管理:理論與實踐》學習指南與習題集
- 接入網技術(第3版)
- 外國鋼琴作品精選2(全國普通高等學校音樂專業鋼琴教學叢書)
- 單片機原理與接口技術(第2版)
- 王金發《細胞生物學》配套題庫【名校考研真題+章節題庫+模擬試題】
- 中藥藥劑學
- 吳偉仁《美國文學史及選讀》配套題庫【章節題庫(含名校考研真題)+模擬試題】
- 軟件工程理論與實踐(第2版)
- 網絡空間安全實驗教程
- 畫法幾何及土木工程制圖習題集(第4版)
- 漆多俊《經濟法學》(復旦大學出版社)筆記和課后習題(含考研真題)詳解