- Spark海量數(shù)據(jù)處理:技術詳解與平臺實戰(zhàn)
- 范東來
- 516字
- 2020-02-14 17:55:31
1.2 Databricks
在2013年,Spark還只是一個Apache孵化器項目,Spark核心開發(fā)團隊成立了一家名為Databricks的公司,專注于基于Spark為行業(yè)提供高質量的解決方案。Databricks創(chuàng)始人團隊中很多都是Spark項目的Committer,在一定程度上,該公司可以影響Spark的發(fā)展方向。Databricks與基于Hadoop做商業(yè)化的Cloudera和Hontworks有異曲同工之妙,后者班底也是Hadoop的開發(fā)團隊,如圖1-5所示,該圖為Databricks的標志。

圖1-5 Databricks
Databricks核心平臺產(chǎn)品統(tǒng)一分析平臺(Unified Analytics Platform)的最大特點就是“易用”,無論是做數(shù)據(jù)探索還是數(shù)據(jù)處理都有不錯的交互體驗,而且涵蓋了整個數(shù)據(jù)科學工程的方方面面,將工程師和科學家從煩瑣的工作中解放出來,這與Cloudera的CDH和Hontworks的HDP相比,無疑更受用戶的喜愛。
Databricks每年都會組織召開Spark Summit,該會議已經(jīng)成為Spark開發(fā)者和用戶的技術盛會。在會上,可以獲得Spark較新發(fā)展動向、特性以及大量行業(yè)應用分享,喜愛大數(shù)據(jù)與Spark的讀者不妨多多關注。Spark Summit是系列會議,第一次是2013年12月在舊金山舉行的,之后每年都會舉辦一次主會議(Spark Summit)和幾次分會議(如Spark Summit Europe、Spark Summit East、Spark Summit China等)。2018年6月,Spark Summit改為“Spark+AI Summit”,如圖1-6所示,體現(xiàn)了大數(shù)據(jù)與人工智能的結合。

圖1-6 2018年6月Spark Summit
值得一提的是,Databricks這家初創(chuàng)公司在商業(yè)化的道路上也走得非常成功。2019年2月5日,Databricks宣布融資2.5億美元,公司估值27.5億美元,投資方不乏微軟這類業(yè)界巨頭。