pg电子官方网站是哪个公司

書名： Spark SQL入門與實踐指南
作者名：紀涵
本章字數： 853字
更新時間： 2019-12-06 16:38:17

2.1　Spark的簡易安裝

搭建Spark之前需要讀者先安裝好Hadoop，由于這個環境用于本書學習，這里建議部署單機或者偽分布式的Hadoop。另外，關于Hadoop的安裝這里不予以介紹，大家可自行搜集Hadoop安裝教程，確保HDFS能正常使用即可。Spark 2.2.0官網中明確表明了：Spark 2.2.0不支持Java 7、Python 2.6以及Hadoop 2.6.5之前的版本。筆者使用的系統是CentOS 7、Java 8、Hadoop 2.7.3，這里配的Spark是單機模式。

　下載Spark安裝包。

進入Spark的下載頁面https://spark.apache.org/downloads.html，如圖2-1所示。

圖2-1

按圖片上的指示將安裝包下載解壓到你喜歡的地方即可。

　編輯解壓之后的Spark文件夾中的conf文件夾下的spark-env.sh和slaves文件。

什么？沒有這兩個文件？別擔心，看到conf文件夾下的spark-env.sh.template、slaves.template這兩個文件了嗎？這是模板文件，我們將其復制并改名即可，參考如下命令：

然后編輯spark-env.sh文件，如圖2-2所示。

圖2-2

為什么要配置SPARK_DIST_CLASSPATH這個變量呢？

因為我們剛剛選擇的Spark版本是Hadoop Free版本，Spark使用Hadoop的HDFS和YARN庫。Spark自從1.4版本之后就允許我們將Spark和任意版本的Hadoop連接起來（雖說是任意版本但Spark對Hadoop版本還是有一定要求的。比如Spark 2.2.0官方文檔的overview中有這么一句話：Note that support for Java 7, Python 2.6 and old Hadoop versions before 2.6.5 were removed as of Spark 2.2.0），但是需要我們配置SPARK_DIST_CLASSPATH這個變量。詳情請看圖2-3。