官术网_书友最值得收藏!

1.1 Spark與BDAS

Hadoop雛形來(lái)源于谷歌公司在2004年到2006年間的3篇論文,從這個(gè)層面上來(lái)說(shuō),Hadoop來(lái)自業(yè)界。而與Hadoop不同,Spark誕生于加州大學(xué)伯克利分校的AMP(Algorithms, Machines, and People)實(shí)驗(yàn)室,有著非常濃厚的學(xué)術(shù)背景,借助于伯克利在計(jì)算機(jī)科學(xué)方面強(qiáng)勁的實(shí)力,可謂厚積薄發(fā)。雖然Spark在2009年才正式發(fā)布,但是它具有很明顯的后發(fā)優(yōu)勢(shì),針對(duì)Hadoop(MapReduce)的不足,有針對(duì)性地進(jìn)行設(shè)計(jì)與開(kāi)發(fā),一出手便彰顯其不凡特性,迅速贏得了開(kāi)發(fā)者的喜愛(ài)。在2012年的時(shí)候,正是Hadoop如日中天的時(shí)代,Spark也才發(fā)布了0.6版本,但當(dāng)時(shí)的情況卻是開(kāi)發(fā)者都期待著Spark 1.0的發(fā)布,由此可見(jiàn)一斑。Spark從一個(gè)追趕者變成領(lǐng)導(dǎo)者用了不到幾年時(shí)間,AMP實(shí)驗(yàn)室也因此聞名世界,在2016年的秋天,伯克利關(guān)閉了AMP實(shí)驗(yàn)室并在其基礎(chǔ)上成立了一個(gè)新的RISE(Real-time Intelligence with Secure Execution)實(shí)驗(yàn)室,如圖1-3所示,在該實(shí)驗(yàn)室的官網(wǎng),可以看到RISE實(shí)驗(yàn)室獲得了國(guó)內(nèi)外多家企業(yè)的資助,且與業(yè)界領(lǐng)先公司建立了緊密的合作,如螞蟻金服、華為、微軟等。

圖1-3 AMP實(shí)驗(yàn)室與RISE實(shí)驗(yàn)室

AMP實(shí)驗(yàn)室在規(guī)劃Spark的藍(lán)圖時(shí),就沒(méi)有將其定位為一個(gè)工具或者是一個(gè)普通的開(kāi)源項(xiàng)目,而是為其規(guī)劃了一個(gè)生態(tài)圈,AMP實(shí)驗(yàn)室將其稱為伯克利數(shù)據(jù)分析棧(Berkeley Data Analytics Stack, BDAS),它集成了若干AMP實(shí)驗(yàn)室開(kāi)發(fā)的組件,BDAS的初衷是解讀大數(shù)據(jù),Spark是其中最重要的一個(gè)組件,如圖1-4所示。

圖1-4 BDAS(伯克利數(shù)據(jù)分析棧)

從圖1-4可以看到,在Spark生態(tài)圈中,除了HDFS以外,留給Hadoop的位置已經(jīng)不多了。Hadoop只在存儲(chǔ)層和資源管理層占有兩個(gè)位置,即便如此還面臨著Alluxio與Mesos的威脅。Spark生態(tài)圈的目的是成為大數(shù)據(jù)技術(shù)的工業(yè)標(biāo)準(zhǔn)。

本節(jié)的最后,再來(lái)談?wù)凷park與Hadoop之間的關(guān)系。首先這兩個(gè)名字后面都代表了業(yè)界先進(jìn)的大數(shù)據(jù)技術(shù)生態(tài)圈,從這個(gè)角度上來(lái)說(shuō),兩者肯定是存在競(jìng)爭(zhēng)關(guān)系的,但在實(shí)際情況中,由于Hadoop存量用戶數(shù)太多,加之Spark生態(tài)圈技術(shù)成熟度的一些問(wèn)題,因此,更多情況下,Spark和Hadoop會(huì)互補(bǔ)形成生產(chǎn)環(huán)境的解決方案,它們之間的關(guān)系是競(jìng)爭(zhēng)與合作并存。

主站蜘蛛池模板: 宁都县| 防城港市| 安新县| 香港| 屏东县| 陇西县| 营山县| 长春市| 石嘴山市| 佛山市| 海兴县| 璧山县| 新闻| 临邑县| 沙河市| 赣州市| 名山县| 伊宁市| 高邮市| 凤山县| 堆龙德庆县| 漳平市| 龙州县| 东平县| 巴东县| 黄大仙区| 建平县| 旌德县| 陆河县| 海城市| 伊金霍洛旗| 宜春市| 东至县| 敖汉旗| 喀什市| 元谋县| 高州市| 绥芬河市| 全南县| 黎平县| 吉安县|