- 基于Hadoop與Spark的大數據開發實戰
- 肖睿 丁科 吳剛山
- 3415字
- 2019-09-10 13:26:12
任務3 安裝Hadoop平臺
關鍵步驟如下。
虛擬機安裝。
CentOS安裝。
Hadoop偽分布式環境搭建。
1.3.1 安裝虛擬機
1.虛擬機概述
虛擬機軟件使你可以在一臺機器上同時運行兩個或更多個Windows、Linux系統。它可以模擬一個標準的PC環境,這個環境和真實的計算機一樣,也有芯片組、CPU、內存、顯卡、聲卡、網卡、軟驅、硬盤、光驅、串口、并口、USB控制器等。
常用的虛擬機軟件:
(1)VMware Workstation(本書采用該軟件,版本可以任意選擇,區別不大)。
(2)Virtual Box。
2.VMware安裝
(1)點擊安裝文件后啟動界面,歡迎界面如圖1.2所示。

圖1.2 安裝VMware——歡迎界面
(2)點擊“下一步”按鈕,界面如圖1.3所示。

圖1.3 安裝VMware——接受安裝許可
(3)選擇“我接受許可協議中的條款”后點擊“下一步”按鈕,點擊“自定義”按鈕,如圖1.4所示。

圖1.4 安裝VMware——自定義安裝
(4)更改安裝位置和選擇安裝功能后如圖1.5所示。

圖1.5 安裝VMware——選擇安裝目錄
(5)點擊“下一步”按鈕后如圖1.6所示。
(6)勾選“桌面”和“開始菜單程序文件夾”復選框后點擊“下一步”按鈕,如圖1.7所示。
(7)點擊“繼續”按鈕,界面如圖1.8所示。
(8)“安裝向導完成”界面如圖1.9所示。

圖1.6 安裝VMware——安裝組件

圖1.7 安裝VMware——選擇創建快捷方式

圖1.8 安裝VMware——繼續安裝

圖1.9 安裝VMware——安裝完成
1.3.2 安裝Linux系統
1.Linux概述
Linux是一個基于POSIX和UNIX的多用戶、多任務、支持多線程和多CPU的免費使用和自由傳播的類UNIX操作系統。它能運行主要的UNIX工具軟件、應用程序和網絡協議,它支持32位和64位硬件。Linux繼承了UNIX以網絡為核心的設計思想,是一個性能穩定的多用戶網絡操作系統。
Linux操作系統誕生于1991年10月5日(這是其第一次正式對外公布的時間)。Linux可安裝在手機、平板電腦、路由器、視頻游戲控制臺、臺式計算機、大型機和超級計算機等各種設備中。
嚴格來講,Linux這個詞本身只表示Linux內核,但實際上人們已經習慣了用Linux來形容整個基于Linux內核并且使用GNU 工程各種工具和數據庫的操作系統。
Linux是一種自由和開放源碼的系統,并有GPL授權,全世界的任何人都可以對其源代碼進行修改然后發布使用,所以存在著許多不同的Linux版本,但它們都使用了Linux內核。所以Linux存在很多的變種以及版本。
(1)Ubuntu:2004年9月發布,最為流行的桌面Linux發行版;個人應用比較多,社區力量很龐大。
(2)Red Hat:使用最廣,性能穩定;商業版。
(3)CentOS:2003年底推出,RHEL的重新編譯版,免費;服務器發行版;本書將采用該版本。
為什么選擇CentOS?
(1)主流:目前的Linux操作系統主要應用于生產環境,主流企業級Linux系統仍舊是Red Hat或者CentOS。
(2)免費:Red Hat和CentOS差別不大。CentOS是一個基于Red Hat Linux提供的可自由使用源代碼的企業級Linux發行版。
(3)更新方便:CentOS獨有的yum命令支持在線升級,可以即時更新系統,不像Red Hat那樣需要花錢購買支持服務。
2.CentOS安裝
(1)首先安裝VMware Workstation,安裝過程參見VMware安裝。
(2)點擊【文件】/【新建虛擬機】或直接點擊【創建新的虛擬機】圖標,如圖1.10所示。

圖1.10 安裝CentOS——新建虛擬機
(3)在圖1.11中選擇“典型(推薦)”,點擊“下一步”按鈕。

圖1.11 安裝CentOS——選擇典型方式安裝
(4)在圖1.12中選擇“稍后安裝操作系統”。

圖1.12 安裝CentOS——選擇稍后安裝操作系統
(5)在圖1.13中選擇操作系統和版本。

圖1.13 安裝CentOS——選擇Linux以及64位系統
(6)在圖1.14中輸入虛擬機名稱和安裝路徑。

圖1.14 安裝CentOS——虛擬機名稱和安裝路徑
(7)在圖1.15中設置磁盤大小。

圖1.15 安裝CentOS——選擇磁盤占用空間
(8)在圖1.16中自定義硬件。

圖1.16 安裝CentOS——自定義硬件
(9)在圖1.17中選擇CentOS安裝鏡像文件。

圖1.17 安裝CentOS——選擇CentOS的鏡像文件
(10)在圖1.18中點擊“完成”按鈕。

圖1.18 安裝CentOS——完成
(11)在圖1.19中啟動虛擬機。

圖1.19 安裝CentOS——啟動
(12)在圖1.20中選擇第一項,安裝全新操作系統或升級現有操作系統。

圖1.20 安裝CentOS——選擇安裝或者更新系統
(13)在圖1.21中按Tab鍵選擇Skip,退出檢測。

圖1.21 安裝CentOS——選擇Skip
(14)在圖1.22中點擊Next按鈕。

圖1.22 安裝CentOS——下一步
(15)在圖1.23中選擇語言,這里選擇的是中文(簡體)。

圖1.23 安裝CentOS——選擇語言
(16)在圖1.24中選擇鍵盤樣式。

圖1.24 安裝CentOS——選擇鍵盤樣式
(17)在圖1.25中選擇存儲設備。

圖1.25 安裝CentOS——選擇存儲設備
如果以前安裝過虛擬機,會出現圖1.26所示的警告,選擇“是,忽略所有數據”。

圖1.26 安裝CentOS——忽略所有數據繼續下一步
(18)在圖1.27中輸入主機名。

圖1.27 安裝CentOS——輸入主機名
(19)在圖1.28中配置網絡。

圖1.28 安裝CentOS——配置網絡
(20)在圖1.29中設置時區,勾選“系統時鐘使用UTC時間”。

圖1.29 安裝CentOS——選擇時區
(21)在圖1.30中輸入根用戶(root)的密碼。

圖1.30 安裝CentOS——為root用戶輸入密碼
如果密碼過于簡單會出現提示,點擊“無論如何都使用”,如圖1.31所示。

圖1.31 安裝CentOS——密碼過于簡單的提示
(22)在圖1.32中根據此Linux的具體功能,選擇其他軟件。

圖1.32 安裝CentOS——是否安裝其他軟件
(23)在圖1.32中選擇“現在自定義”,自定義安裝需要的軟件,如桌面配置,如圖1.33所示。

圖1.33 安裝CentOS——安裝自定義組件
可以根據具體的情況來配置,如圖1.34中選擇安裝Eclipse。

圖1.34 安裝CentOS——安裝Eclipse
還可以如圖1.35所示安裝Java平臺、Perl支持等。

圖1.35 安裝CentOS——安裝Java環境
在圖1.36中選擇語言支持。

圖1.36 安裝CentOS——選擇語言支持
(24)在圖1.37中點擊“下一步”按鈕,開始安裝。

圖1.37 安裝CentOS——正在安裝
(25)安裝完成后,在圖1.38所示界面點擊“重新引導”按鈕。

圖1.38 安裝CentOS——重新引導
(26)點擊“前進”按鈕,如圖1.39所示。

圖1.39 安裝CentOS——歡迎
(27)在圖1.40中點擊“是,我同意該許可證協議”,再點擊“前進”按鈕。

圖1.40 安裝CentOS——同意許可證協議
(28)創建用戶,如圖1.41所示。

圖1.41 安裝CentOS——創建用戶
(29)在圖1.42中設置日期和時間,如果可以上網,勾選“在網絡上同步日期和時間”。

圖1.42 安裝CentOS——設置日期和時間
(30)最后點擊“前進”按鈕,完成安裝!
1.3.3 安裝Hadoop偽分布式環境
Hadoop集群安裝
1.Hadoop安裝包下載
本書采用的是CDH版本的hadoop-2.6.0-cdh5.7.0,相關的下載地址為:http://archive.cloudera.com/cdh5/cdh/5/;下載完存放在~/software/目錄下,相關的軟件安裝在~/app目錄下。
2.Hadoop安裝包解壓
將下載的Hadoop安裝包解壓到~/app目錄下。
tar -zxvf ~/software/hadoop-2.6.0-cdh5.7.0.tar.gz -C /app
3.Hadoop偽分布式環境搭建
Hadoop啟動后,Name Node是通過SSH(Secure Shell)來啟動和停止各個Data Node上的進程,所以先在本機上實現SSH免密碼登錄。
ssh-keygen -t rsa
ssh-copy-id localhost
成功執行上述兩條命令后即可免密碼登錄至本機:
ssh localhost
其中localhost可為主機名或IP地址。
在進行偽分布式環境部署之前,先來了解下偽分布式環境部署和分布式環境部署的區別:
(1)偽分布式:在一臺機器上啟動Hadoop需要的所有進程進行工作。
(2)分布式:在多臺機器上都部署Hadoop,按照集群的規劃在不同的機器上啟動各自需要的Haodop進程進行相互協調工作。
環境搭建的步驟如下。
(1)將Hadoop安裝目錄添加到系統環境變量(~/.bash_profile)中。
vi ~/.bash_profile
export JAVA_HOME=/home/hadoop/app/jdk1.7.0_79
export HADOOP_HOME=/home/hadoop/app/hadoop-2.6.0-cdh5.7.0
export PATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$JAVA_HOME/bin:$PATH
執行“source ~/.bash_profile”命令使得環境變量生效。
(2)配置Hadoop環境的配置文件hadoop-env.sh。
//設置JDK的安裝路徑
export JAVA_HOME=/home/hadoop/app/jdk1.7.0_79
(3)配置Hadoop核心文件core-site.xml。
//配置Name Node的主機名和端口號
<property>
<name>fs.default FS</name>
<value>hdfs://hadoop000:8020</value>
</property>
(4)配置HDFS文件hdfs-site.xml。
//設置HDFS元數據文件存放路徑
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hadoop/tmp/dfs/data</value>
</property>
//設置HDFS文件副本數
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
//設置其他用戶執行操作時會提醒沒有權限的問題
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
注意
各目錄一定要是非/tmp下的目錄,否則默認是在/tmp下。如果是在虛擬機環境操作的話,每次重啟后都會刪除/tmp中的文件;該文件在Hadoop啟動的時候會自動創建。
(5)配置Map Reduce文件mapred-site.xml。
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
(6)配置YARN文件yarn-site.xml。
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
(7)從節點配置文件slaves。
hadoop000
4.格式化HDFS系統
hadoop namenode -format
注意
格式化HDFS操作只有第一次才使用,如果對已有的集群再一次執行格式化操作,那么已有集群上的數據會全部丟失。
5.啟動HDFS
(1)常用的啟動方式有兩種。
啟動方式一:一次啟動所有進程
$HADOOP_HOME/sbin/start-dfs.sh
啟動完成后可以通過jps命令檢測是否啟動成功,如果正常啟動會有如下3個進程:
jps
Secondary Name Node
Name Node
Data Node
啟動方式二:單獨啟動每個進程
//啟動namenode
hadoop-daemon.sh start namenode
//jps檢測會有Name Node進程
//啟動datanode
hadoop-daemon.sh start datanode
//jps檢測會有Data Node進程
//啟動secondarynamenode
hadoop-daemon.sh start secondarynamenode
//jps檢測會有Secondary Name Node進程
(2)使用命令操作HDFS文件系統。
詳細的HDFS腳本命令會在第2章中詳細講解,本章只做一個簡單的應用。
//創建HDFS目錄
hadoop fs -mkdir /helloworld
//查看目錄是否創建成功
hadoop fs -ls /
(3)HDFS界面瀏覽器訪問:http://hadoop000:50070。
6.啟動YARN
(1)常用的啟動方式有兩種。
啟動方式一:一次啟動所有進程
$HADOOP_HOME/sbin/start-yarn.sh
啟動完成后可以通過jps命令檢測是否啟動成功,如果正常啟動會有如下兩個進程。
jps
Node Manager
Resource Manager
啟動方式二:單獨啟動每個進程
//啟動resourcemanager
yarn-daemon.sh start resourcemanager
//jps檢測會有jps: Resource Manager進程
//啟動resourcemanager
yarn-daemon.sh start nodemanager
//jps檢測會有jps: Node Manager進程
(2)運行wordcount測試案例。
Hadoop安裝包中自帶了wordcount的應用程序,jar包所處路徑為:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar。
//wordcount要測試的數據文件:hello.txt,使用制表符進行分隔
hello world hello
hello welcome world
//將hello.txt文件上傳到HDFS文件系統上去
Hadoop fs -put hello.txt /
//提交mapreduce作業到yarn上運行
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar wordcount /hello.txt /wc_out/
//查看wordcount統計結果
hadoop fs -text /wc_out/part*
hello 3
welcome 1
world 2
(3)YARN界面瀏覽器訪問:http://hadoop000:8088。
- 火格局的時空變異及其在電網防火中的應用
- Design for the Future
- 高性能混合信號ARM:ADuC7xxx原理與應用開發
- 手把手教你玩轉RPA:基于UiPath和Blue Prism
- Mastering Salesforce CRM Administration
- Visual C# 2008開發技術詳解
- 21天學通Java
- JSP從入門到精通
- 運動控制系統
- 啊哈C!思考快你一步
- ADuC系列ARM器件應用技術
- 智能小車機器人制作大全(第2版)
- 玩轉機器人:基于Proteus的電路原理仿真(移動視頻版)
- 暗戰強人:黑客攻防入門全程圖解
- Microsoft 365 Mobility and Security:Exam Guide MS-101