- Spark海量數(shù)據(jù)處理:技術(shù)詳解與平臺(tái)實(shí)戰(zhàn)
- 范東來(lái)
- 763字
- 2020-02-14 17:55:31
1.1 Spark與BDAS
Hadoop雛形來(lái)源于谷歌公司在2004年到2006年間的3篇論文,從這個(gè)層面上來(lái)說(shuō),Hadoop來(lái)自業(yè)界。而與Hadoop不同,Spark誕生于加州大學(xué)伯克利分校的AMP(Algorithms, Machines, and People)實(shí)驗(yàn)室,有著非常濃厚的學(xué)術(shù)背景,借助于伯克利在計(jì)算機(jī)科學(xué)方面強(qiáng)勁的實(shí)力,可謂厚積薄發(fā)。雖然Spark在2009年才正式發(fā)布,但是它具有很明顯的后發(fā)優(yōu)勢(shì),針對(duì)Hadoop(MapReduce)的不足,有針對(duì)性地進(jìn)行設(shè)計(jì)與開(kāi)發(fā),一出手便彰顯其不凡特性,迅速贏得了開(kāi)發(fā)者的喜愛(ài)。在2012年的時(shí)候,正是Hadoop如日中天的時(shí)代,Spark也才發(fā)布了0.6版本,但當(dāng)時(shí)的情況卻是開(kāi)發(fā)者都期待著Spark 1.0的發(fā)布,由此可見(jiàn)一斑。Spark從一個(gè)追趕者變成領(lǐng)導(dǎo)者用了不到幾年時(shí)間,AMP實(shí)驗(yàn)室也因此聞名世界,在2016年的秋天,伯克利關(guān)閉了AMP實(shí)驗(yàn)室并在其基礎(chǔ)上成立了一個(gè)新的RISE(Real-time Intelligence with Secure Execution)實(shí)驗(yàn)室,如圖1-3所示,在該實(shí)驗(yàn)室的官網(wǎng),可以看到RISE實(shí)驗(yàn)室獲得了國(guó)內(nèi)外多家企業(yè)的資助,且與業(yè)界領(lǐng)先公司建立了緊密的合作,如螞蟻金服、華為、微軟等。

圖1-3 AMP實(shí)驗(yàn)室與RISE實(shí)驗(yàn)室
AMP實(shí)驗(yàn)室在規(guī)劃Spark的藍(lán)圖時(shí),就沒(méi)有將其定位為一個(gè)工具或者是一個(gè)普通的開(kāi)源項(xiàng)目,而是為其規(guī)劃了一個(gè)生態(tài)圈,AMP實(shí)驗(yàn)室將其稱為伯克利數(shù)據(jù)分析棧(Berkeley Data Analytics Stack, BDAS),它集成了若干AMP實(shí)驗(yàn)室開(kāi)發(fā)的組件,BDAS的初衷是解讀大數(shù)據(jù),Spark是其中最重要的一個(gè)組件,如圖1-4所示。

圖1-4 BDAS(伯克利數(shù)據(jù)分析棧)
從圖1-4可以看到,在Spark生態(tài)圈中,除了HDFS以外,留給Hadoop的位置已經(jīng)不多了。Hadoop只在存儲(chǔ)層和資源管理層占有兩個(gè)位置,即便如此還面臨著Alluxio與Mesos的威脅。Spark生態(tài)圈的目的是成為大數(shù)據(jù)技術(shù)的工業(yè)標(biāo)準(zhǔn)。
本節(jié)的最后,再來(lái)談?wù)凷park與Hadoop之間的關(guān)系。首先這兩個(gè)名字后面都代表了業(yè)界先進(jìn)的大數(shù)據(jù)技術(shù)生態(tài)圈,從這個(gè)角度上來(lái)說(shuō),兩者肯定是存在競(jìng)爭(zhēng)關(guān)系的,但在實(shí)際情況中,由于Hadoop存量用戶數(shù)太多,加之Spark生態(tài)圈技術(shù)成熟度的一些問(wèn)題,因此,更多情況下,Spark和Hadoop會(huì)互補(bǔ)形成生產(chǎn)環(huán)境的解決方案,它們之間的關(guān)系是競(jìng)爭(zhēng)與合作并存。
- GNU-Linux Rapid Embedded Programming
- 高性能混合信號(hào)ARM:ADuC7xxx原理與應(yīng)用開(kāi)發(fā)
- 空間機(jī)器人遙操作系統(tǒng)及控制
- Security Automation with Ansible 2
- 讓每張照片都成為佳作的Photoshop后期技法
- 永磁同步電動(dòng)機(jī)變頻調(diào)速系統(tǒng)及其控制(第2版)
- 大數(shù)據(jù)處理平臺(tái)
- CompTIA Linux+ Certification Guide
- 計(jì)算機(jī)網(wǎng)絡(luò)原理與技術(shù)
- Creating ELearning Games with Unity
- Learning Cassandra for Administrators
- 數(shù)據(jù)清洗
- 網(wǎng)絡(luò)安全原理與應(yīng)用
- Appcelerator Titanium Smartphone App Development Cookbook(Second Edition)
- Flash CS3動(dòng)畫(huà)制作融會(huì)貫通