官术网_书友最值得收藏!

2.2 云計(jì)算與云存儲(chǔ)技術(shù)

云計(jì)算與云存儲(chǔ)作為分布式計(jì)算、存儲(chǔ)的框架與模型天然適用于大數(shù)據(jù)規(guī)模的計(jì)算與存儲(chǔ),是當(dāng)前大數(shù)據(jù)挖掘處理過程的首選架構(gòu)。

2.2.1 云計(jì)算

云計(jì)算(Cloud Computing)是分布式計(jì)算(Distributed Computing)、并行計(jì)算(Parallel Computing)、效用計(jì)算(Utility Computing)、網(wǎng)絡(luò)存儲(chǔ)(Network Storage Technologies)、虛擬化技術(shù)(Virtualization)等傳統(tǒng)計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)發(fā)展融合產(chǎn)生的新一代信息服務(wù)模式,是IT技術(shù)進(jìn)步的必然產(chǎn)物。它旨在通過網(wǎng)絡(luò)把多個(gè)成本相對(duì)較低的計(jì)算實(shí)體整合成一個(gè)具有強(qiáng)大計(jì)算能力的完美系統(tǒng),并借助SaaS(Software-as-a-Service,SaaS)、PaaS(Platform-as-a-Service,PaaS)、IaaS(Infrastructure-as-a-Service,IaaS)等先進(jìn)商業(yè)模式將這種強(qiáng)大計(jì)算能力分布到終端用戶手中。

云計(jì)算的概念最早可以追溯到20世紀(jì)60年代,John McCarthy提出計(jì)算能力將作為一種像水、電一樣的公用事業(yè)提供給用戶,即計(jì)算資源被當(dāng)作公共設(shè)施來提供。自云計(jì)算概念出現(xiàn)以來,云計(jì)算服務(wù)已經(jīng)經(jīng)歷了十多年的發(fā)展歷程。云計(jì)算服務(wù)真正受到整個(gè)IT產(chǎn)業(yè)重視始于2005年亞馬遜推出的AWS(Amazon Web Services,AWS)服務(wù),產(chǎn)業(yè)界意識(shí)到亞馬遜建立了一種新型IT服務(wù)模式。之后,谷歌、IBM、微軟、百度、騰訊、阿里巴巴等互聯(lián)網(wǎng)和IT企業(yè)分別從不同的角度提供不同層面的云計(jì)算服務(wù),云服務(wù)進(jìn)入了快速發(fā)展的階段。當(dāng)前,云服務(wù)正在逐步突破互聯(lián)網(wǎng)市場的范疇,政府、公共管理部門、各行業(yè)企業(yè)開始接受云服務(wù)的理念,并開始將傳統(tǒng)自建IT方式轉(zhuǎn)為使用公有云服務(wù)方式,云服務(wù)真正進(jìn)入其產(chǎn)業(yè)成熟期。

目前,雖然各種企業(yè)或者研究機(jī)構(gòu)從不同的角度出發(fā)對(duì)云計(jì)算進(jìn)行了定義(ISO/IEC JTC1 N9687指出關(guān)于云計(jì)算定義存在20多個(gè)版本),但是現(xiàn)在還沒有一個(gè)公認(rèn)的標(biāo)準(zhǔn)。當(dāng)前廣為接受的是美國國家標(biāo)準(zhǔn)與技術(shù)研究院(National Institute of Standards and Technology,NIST)對(duì)云計(jì)算做出的定義:云計(jì)算是一種模型,它可以實(shí)現(xiàn)隨時(shí)隨地、便捷地從可配置計(jì)算資源共享池中獲取所需資源(如網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)、應(yīng)用及服務(wù)),資源能夠快速供應(yīng)并釋放,并且使得管理資源工作量和與服務(wù)提供商交互減小到最低限度(如圖2.10所示)。

圖2.10 云計(jì)算層次化概念模型

云計(jì)算從不同的角度、采用不同的分類方法可以分為不同的類別??傮w而言,云計(jì)算有兩種分類方法。

一是依據(jù)使用方式不同,云計(jì)算存在四種典型類型:公有云、私有云、社區(qū)云和混合云。

公有云(Public Cloud)是由第三方供應(yīng)商通過互聯(lián)網(wǎng)提供的云服務(wù)。云服務(wù)提供商擁有基礎(chǔ)設(shè)施,將云計(jì)算服務(wù)通過互聯(lián)網(wǎng)以按使用情況付費(fèi)的方式銷售給企業(yè)或個(gè)人用戶。公有云的服務(wù)提供商通常需要超大型的IT基礎(chǔ)設(shè)施,如大型的數(shù)據(jù)中心等,世界上著名的公有云服務(wù)有亞馬遜的EC2、谷歌的Google Apps等。公有云通過規(guī)模經(jīng)濟(jì)性可以有效地降低客戶的風(fēng)險(xiǎn)和成本,尤其是對(duì)于資金相對(duì)缺乏的中小企業(yè)。國內(nèi)著名的公有云服務(wù)有阿里云、盛大云等。

私有云(Private Cloud)是將云基礎(chǔ)設(shè)施部署在企業(yè)內(nèi)部,從而使得企業(yè)在一定程度上具有公有云的彈性計(jì)算等優(yōu)勢(shì)。由于私有云方案是為一個(gè)客戶單獨(dú)使用而構(gòu)建的,因而提供對(duì)數(shù)據(jù)、安全性和服務(wù)質(zhì)量的最有效控制。私有云所在企業(yè)擁有基礎(chǔ)設(shè)施,并可以控制在此基礎(chǔ)設(shè)施上部署的應(yīng)用程序的方式。私有云可部署在企業(yè)數(shù)據(jù)中心的防火墻內(nèi),也可以部署在一個(gè)安全的主機(jī)托管場所。

混合云(Hybrid Cloud)由兩個(gè)或更多云端系統(tǒng)組成云端基礎(chǔ)設(shè)施,這些云端系統(tǒng)包含了私有云、社區(qū)云、公有云等。這些系統(tǒng)保有獨(dú)立性,但是借由標(biāo)準(zhǔn)化或封閉式專屬技術(shù)相互結(jié)合,確保資料與應(yīng)用程序的可攜性,例如在云端系統(tǒng)之間進(jìn)行負(fù)載平衡的云爆技術(shù)。混合云是公有云和私有云的結(jié)合。企業(yè)將自己非機(jī)密的數(shù)據(jù)和應(yīng)用外包給公有云,而核心和機(jī)密的數(shù)據(jù)和應(yīng)用則采取部署私有云的方案。

社區(qū)云(Community Cloud)是大的“公有云”范疇內(nèi)的一個(gè)組成部分,是指在一定的地域范圍內(nèi),由云計(jì)算服務(wù)提供商統(tǒng)一提供計(jì)算資源、網(wǎng)絡(luò)資源、軟件和服務(wù)能力所形成的云計(jì)算形式。即基于社區(qū)內(nèi)的網(wǎng)絡(luò)互連優(yōu)勢(shì)和技術(shù)易于整合等特點(diǎn),通過對(duì)區(qū)域內(nèi)各種計(jì)算能力進(jìn)行統(tǒng)一服務(wù)形式的整合,結(jié)合社區(qū)內(nèi)的用戶需求共性,實(shí)現(xiàn)面向區(qū)域用戶需求的云計(jì)算服務(wù)模式。

不同云計(jì)算使用方式優(yōu)劣勢(shì)比較,見表2.2。

表2.2 不同云計(jì)算使用方式優(yōu)劣勢(shì)比較

續(xù)表

二是依據(jù)服務(wù)模式,云計(jì)算分為:IaaS、PaaS以及SaaS,如表2.3所示。

表2.3 云計(jì)算與傳統(tǒng)IT服務(wù)模式的區(qū)別

續(xù)表

這種模式的云服務(wù)通過因特網(wǎng)傳輸計(jì)算機(jī)基礎(chǔ)設(shè)施服務(wù)(如虛擬服務(wù)器,存儲(chǔ)設(shè)備等),消費(fèi)者通過Internet可以從完善的計(jì)算機(jī)基礎(chǔ)設(shè)施中獲得服務(wù)。

PaaS實(shí)際上是指將軟件研發(fā)平臺(tái)作為一種服務(wù),以SaaS的模式提交給用戶。因此,PaaS也是SaaS模式的一種應(yīng)用。PaaS平臺(tái)通常包括操作系統(tǒng)、編程語言的運(yùn)行環(huán)境、數(shù)據(jù)庫和Web服務(wù)器,用戶在此平臺(tái)上部署和運(yùn)行自己的應(yīng)用。用戶不能管理和控制底層的基礎(chǔ)設(shè)施,只能控制自己部署的應(yīng)用。

是一種通過Internet提供軟件的模式,用戶無須購買軟件,只需向提供商租用基于Web的軟件,來管理企業(yè)經(jīng)營活動(dòng)。

從產(chǎn)業(yè)鏈角度,云計(jì)算產(chǎn)業(yè)可以分為5個(gè)部分:制造業(yè)、基礎(chǔ)設(shè)施服務(wù)業(yè)、云計(jì)算服務(wù)業(yè)、支持產(chǎn)業(yè)和用戶。云計(jì)算制造業(yè)主要指與云計(jì)算相關(guān)的硬件、軟件和系統(tǒng)集成領(lǐng)域?;A(chǔ)設(shè)施服務(wù)業(yè)主要指云計(jì)算提供承載服務(wù)的數(shù)據(jù)中心和網(wǎng)絡(luò),其中,數(shù)據(jù)中心既包括由電信運(yùn)營商與數(shù)據(jù)中心服務(wù)商提供的租用式數(shù)據(jù)中心,也包括由云服務(wù)提供商自建的數(shù)據(jù)中心。云計(jì)算支持產(chǎn)業(yè)包括云計(jì)算相關(guān)的咨詢、設(shè)計(jì)和評(píng)估認(rèn)證機(jī)構(gòu)。

云計(jì)算體系結(jié)構(gòu)由5個(gè)主要部分構(gòu)成,分別為應(yīng)用層、平臺(tái)層、資源層、用戶訪問層和管理層。云計(jì)算的本質(zhì)是通過網(wǎng)絡(luò)提供服務(wù),因而其體系結(jié)構(gòu)的構(gòu)成以服務(wù)為核心。應(yīng)用層、平臺(tái)層、資源層是云計(jì)算提供的不同層次的服務(wù),如圖2.11所示。

圖2.11 云計(jì)算體系結(jié)構(gòu)

資源層是指基礎(chǔ)架構(gòu)層面的云計(jì)算服務(wù)。它把基礎(chǔ)架構(gòu)的各種功能提供給用戶,使得用戶可以基于這些服務(wù)搭建自己的應(yīng)用。這種服務(wù)可以提供虛擬化的資源,從而隱藏物理資源的復(fù)雜性。

物理資源是指支撐云計(jì)算上層服務(wù)的各種物理設(shè)備,如服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備等。

服務(wù)器服務(wù)為用戶提供一個(gè)服務(wù)器環(huán)境,如Windows、Linux、UNIX或者是一個(gè)集群。

網(wǎng)絡(luò)服務(wù)為用戶提供網(wǎng)絡(luò)處理能力,如防火墻、VLAN(Virtual LAN,VLAN)、負(fù)載均衡、路由和信息交換等。

存儲(chǔ)服務(wù)為用戶提供存儲(chǔ)能力,如文件級(jí)存儲(chǔ)或塊設(shè)備級(jí)存儲(chǔ)。

平臺(tái)層為用戶提供對(duì)資源層服務(wù)的封裝,使得用戶可以使用更高級(jí)的服務(wù)構(gòu)建自己的應(yīng)用。

應(yīng)用層為用戶提供軟件服務(wù)。

用戶訪問層是方便用戶使用云計(jì)算服務(wù)所需的各種支撐服務(wù)。針對(duì)每個(gè)層次的云計(jì)算服務(wù),用戶訪問層都需要提供相應(yīng)的訪問接口。

管理層是提供對(duì)所有層次云計(jì)算服務(wù)的管理功能。

云計(jì)算體系結(jié)構(gòu)和網(wǎng)格計(jì)算體系結(jié)構(gòu)類似,都是利用底層資源為用戶提供服務(wù)。其區(qū)別在于,云計(jì)算能提供更廣泛的服務(wù)類型,服務(wù)管理能力也更強(qiáng),而網(wǎng)格計(jì)算則局限于提供資源服務(wù)上。

按需部署是云計(jì)算的核心。要解決好按需部署,必須解決好資源的動(dòng)態(tài)可重構(gòu)、監(jiān)控和自動(dòng)化部署等,而這些又需要以虛擬化技術(shù)、高性能存儲(chǔ)技術(shù)、處理器技術(shù)、高速互聯(lián)網(wǎng)技術(shù)為基礎(chǔ)。因此,云計(jì)算除了需要仔細(xì)研究其體系結(jié)構(gòu)外,還要特別注意研究資源的動(dòng)態(tài)可重構(gòu)、自動(dòng)化部署、資源監(jiān)控、虛擬化技術(shù)、高性能存儲(chǔ)技術(shù)、處理器技術(shù)等。本節(jié)將從其體系結(jié)構(gòu)上簡單介紹云計(jì)算的關(guān)鍵技術(shù)。

1.虛擬化技術(shù)

虛擬化技術(shù)不僅是大數(shù)據(jù)中的關(guān)鍵技術(shù),也是實(shí)現(xiàn)云計(jì)算的最重要的技術(shù)基礎(chǔ),虛擬化技術(shù)實(shí)現(xiàn)了物理資源的邏輯抽象和統(tǒng)一表示。通過虛擬化技術(shù),可以提高資源的利用率,并能夠根據(jù)用戶業(yè)務(wù)需求,快速、靈活地進(jìn)行資源部署。虛擬化技術(shù)是云計(jì)算的基礎(chǔ)構(gòu)成之一。虛擬化可以將大量服務(wù)器資源進(jìn)行整合形成計(jì)算資源池,虛擬化還能夠按照需求動(dòng)態(tài)將虛擬資源分配或者重分配給相應(yīng)應(yīng)用,而這些都是云計(jì)算的核心功能。因此,云計(jì)算只有依靠并利用虛擬化技術(shù)才能實(shí)現(xiàn)其將計(jì)算資源作為實(shí)體按需提供的目標(biāo),也是基于虛擬化技術(shù)才擁有了動(dòng)態(tài)分配計(jì)算資源的能力。云計(jì)算是并行計(jì)算、分布式計(jì)算、網(wǎng)格計(jì)算的發(fā)展延伸,它將虛擬化、公共計(jì)算、IaaS、PaaS和SaaS等概念加以融合,形成了一個(gè)新的框架。云計(jì)算的思想和網(wǎng)格計(jì)算不同,前者的目標(biāo)是資源集中管理和分散使用,而網(wǎng)格計(jì)算的思想是將整合分散的資源集中使用。云計(jì)算在服務(wù)器端集中提供計(jì)算資源,為了節(jié)約成本,發(fā)揮空間的最大利用率,就要借助虛擬化技術(shù)構(gòu)建資源池。

虛擬化是一個(gè)寬泛的技術(shù)術(shù)語,是指將計(jì)算資源或計(jì)算環(huán)境加以抽象。虛擬化提供一個(gè)平臺(tái)將物理計(jì)算資源邏輯化后呈現(xiàn)給其上層運(yùn)行的操作系統(tǒng)。這樣可以使多個(gè)操作系統(tǒng)同時(shí)共享一個(gè)物理計(jì)算機(jī)設(shè)備,且認(rèn)為自身還擁有對(duì)物理設(shè)備的獨(dú)享控制權(quán)。虛擬化還會(huì)修改物理資源的某些真實(shí)屬性,將其轉(zhuǎn)變成一個(gè)通用的邏輯資源呈現(xiàn)給操作系統(tǒng)。

虛擬化是一個(gè)層次接口抽象、封裝和標(biāo)準(zhǔn)化的過程,在封裝的過程中虛擬化技術(shù)會(huì)屏蔽掉硬件在物理上的差異性,比如型號(hào)差別、容量差別、接口差別等。由此硬件資源經(jīng)由虛擬化處理后以一種標(biāo)準(zhǔn)化、一致性的操作界面呈現(xiàn)給上層運(yùn)行的操作系統(tǒng)。在硬件上部署虛擬化產(chǎn)品后,上層的業(yè)務(wù)就可以擺脫和硬件細(xì)節(jié)相耦合的設(shè)計(jì)。虛擬化不是萬能的,它不負(fù)責(zé)解決計(jì)算問題,其僅是和硬件結(jié)合在一起對(duì)本地物理資源進(jìn)行資源池構(gòu)建。換句話說,虛擬化技術(shù)就是將具體的技術(shù)特性加以封裝隱藏,對(duì)外提供統(tǒng)一邏輯接口,從而屏蔽物理設(shè)備的多樣性帶來的差異。

虛擬化是云計(jì)算環(huán)境中的關(guān)鍵支撐技術(shù),它實(shí)現(xiàn)了對(duì)IT資源的抽象,并被云供應(yīng)商所廣泛采用,它為云計(jì)算提供自適應(yīng)、自管理的靈活基礎(chǔ)結(jié)構(gòu)。通俗理解,云計(jì)算可以被定義為一組虛擬計(jì)算機(jī)的資源池,在該資源池中云計(jì)算模型允許通過不斷提供虛擬機(jī)或者物理機(jī)來快速實(shí)現(xiàn)工作負(fù)載的部署與擴(kuò)展。云計(jì)算是一種具有可冗余、可自我恢復(fù)和高擴(kuò)展性的編程模型平臺(tái),因此,平臺(tái)具有從多種不可避免的軟硬件故障中恢復(fù)的能力。通過虛擬化技術(shù),云計(jì)算向終端用戶提供了涵蓋從硬件到應(yīng)用程序范圍的整個(gè)計(jì)算架構(gòu)中的所有層次,允許用戶按照使用量進(jìn)行付費(fèi)。例如,Amazon Web服務(wù)和VMWare傾向于提供硬件級(jí)別的虛擬化,而Google App Engine和微軟Azure則集中在應(yīng)用級(jí)別虛擬化。

2.并行編程模型

為了使用戶能更輕松地享受云計(jì)算帶來的服務(wù),讓用戶能利用編程模型編寫簡單的程序以實(shí)現(xiàn)特定的目的,云計(jì)算上的編程模型必須十分簡單。必須保證后臺(tái)復(fù)雜的并行執(zhí)行和任務(wù)調(diào)度向用戶和編程人員透明。

MapReduce是Google開發(fā)的Java、Python、C++編程模型,它是一種簡化的分布式編程模型和高效的任務(wù)調(diào)度模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。嚴(yán)格的編程模型使云計(jì)算環(huán)境下的編程十分簡單。MapReduce模式的思想是將要執(zhí)行的問題分解成Map(映射)和Reduce(化簡)的方式,先通過Map程序?qū)?shù)據(jù)切割成不相關(guān)的區(qū)塊,分配(調(diào)度)給大量計(jì)算機(jī)處理,達(dá)到分布式運(yùn)算的效果,再通過Reduce程序?qū)⒔Y(jié)果匯總輸出。

云計(jì)算大部分采用MapReduce的編程模式?,F(xiàn)在大部分IT廠商提出的“云”計(jì)劃中采用的編程模型,都是基于MapReduce的思想開發(fā)的編程工具。MapReduce不僅是一種編程模型,同時(shí)也是一種高效的任務(wù)調(diào)度模型。MapReduce這種編程模型不僅適用于云計(jì)算,在多核和多處理器、Cell Processor及異構(gòu)機(jī)群上同樣具有良好的性能。該編程模式僅適用于編寫任務(wù)內(nèi)部松耦合、高度并行化的程序。如何改進(jìn)該編程模式,使程序員能夠輕松地編寫緊耦合的程序,運(yùn)行時(shí)能高效地調(diào)度和執(zhí)行任務(wù),是MapReduce編程模型未來的發(fā)展方向。MapReduce是一種處理和產(chǎn)生大規(guī)模數(shù)據(jù)集的編程模型,程序員在Map函數(shù)中指定對(duì)各分塊數(shù)據(jù)的處理過程,在Reduce函數(shù)中指定如何對(duì)分塊數(shù)據(jù)處理的中間結(jié)果進(jìn)行歸約。用戶只需要指定Map和Reduce函數(shù)來編寫分布式的并行程序。當(dāng)在集群上運(yùn)行MapReduce程序時(shí),程序員不需要關(guān)心如何將輸入的數(shù)據(jù)分塊、分配和調(diào)度,系統(tǒng)將處理集群內(nèi)節(jié)點(diǎn)失敗及節(jié)點(diǎn)間通信的管理等。圖2.12給出了一個(gè)MapReduce程序的具體執(zhí)行過程。

圖2.12 MapReduce程序的具體執(zhí)行過程

從圖2.12可以看出,執(zhí)行一個(gè)MapReduce程序需要5個(gè)步驟:輸入文件—將文件分配給多個(gè)工作機(jī)(Worker)并行地執(zhí)行—寫中間文件(本地寫)—多個(gè)Reduce Worker同時(shí)運(yùn)行—輸出最終結(jié)果。本地寫中間文件在減少了對(duì)網(wǎng)絡(luò)帶寬壓力的同時(shí)也減少了寫中間文件的時(shí)間耗費(fèi)。執(zhí)行Reduce時(shí),根據(jù)從主控程序(Master)獲得的中間文件位置信息,Reduce使用遠(yuǎn)程過程調(diào)用,從中間文件所在節(jié)點(diǎn)讀取所需的數(shù)據(jù)。MapReduce模型具有很強(qiáng)的容錯(cuò)性,當(dāng)Worker節(jié)點(diǎn)出現(xiàn)錯(cuò)誤時(shí),只需將該Worker節(jié)點(diǎn)屏蔽在系統(tǒng)外等待修復(fù),并將該Worker上執(zhí)行的程序遷移到其他Worker上重新執(zhí)行,同時(shí)將該遷移信息通過Master發(fā)送給需要該節(jié)點(diǎn)處理結(jié)果的節(jié)點(diǎn)。MapReduce使用檢查點(diǎn)的方式來處理Master出錯(cuò)失敗的問題,當(dāng)Master出現(xiàn)錯(cuò)誤時(shí),可以根據(jù)最近的一個(gè)檢查點(diǎn)重新選擇一個(gè)節(jié)點(diǎn)作為Master并由此檢查點(diǎn)位置繼續(xù)運(yùn)行。

3.分布式存儲(chǔ)與數(shù)據(jù)管理技術(shù)

為保證高可用、高可靠和經(jīng)濟(jì)性,云計(jì)算采用分布式存儲(chǔ)的方式來存儲(chǔ)數(shù)據(jù),采用冗余存儲(chǔ)的方式來保證存儲(chǔ)數(shù)據(jù)的可靠性,即為同一份數(shù)據(jù)存儲(chǔ)多個(gè)副本。

另外,云計(jì)算系統(tǒng)需要同時(shí)滿足大量用戶的需求,并行地為大量用戶提供服務(wù)。因此,云計(jì)算的數(shù)據(jù)存儲(chǔ)技術(shù)必須具有高吞吐率和高傳輸率的特點(diǎn)。

云計(jì)算系統(tǒng)由大量服務(wù)器組成,同時(shí)為大量用戶服務(wù),因此,云計(jì)算系統(tǒng)采用分布式存儲(chǔ)的方式存儲(chǔ)數(shù)據(jù),用冗余存儲(chǔ)的方式保證數(shù)據(jù)的可靠性。云計(jì)算系統(tǒng)中廣泛使用的數(shù)據(jù)存儲(chǔ)系統(tǒng)是Google的GFS(Google File System,GFS)和Hadoop團(tuán)隊(duì)開發(fā)的GFS的開源實(shí)現(xiàn)HDFS(Hadoop Distribution File System,HDFS)。

4.云計(jì)算平臺(tái)管理技術(shù)

云計(jì)算資源規(guī)模龐大,服務(wù)器數(shù)量眾多且分布在不同的地點(diǎn),同時(shí)運(yùn)行著數(shù)百種應(yīng)用,如何有效地管理這些服務(wù)器,保證整個(gè)系統(tǒng)提供不間斷的服務(wù)是一項(xiàng)巨大的挑戰(zhàn)。

云計(jì)算系統(tǒng)的平臺(tái)管理技術(shù)能夠使大量的服務(wù)器協(xié)同工作,方便地進(jìn)行業(yè)務(wù)部署和開通,快速發(fā)現(xiàn)和恢復(fù)系統(tǒng)故障,通過自動(dòng)化、智能化的手段實(shí)現(xiàn)大規(guī)模系統(tǒng)的可靠運(yùn)營,如圖2.13所示。

圖2.13 云計(jì)算平臺(tái)的管理系統(tǒng)

2.2.2 云存儲(chǔ)

隨著信息技術(shù)的高速發(fā)展和社會(huì)經(jīng)濟(jì)的發(fā)展進(jìn)步,人們對(duì)計(jì)算能力的需求不斷提高,大數(shù)據(jù)的訪問形式也發(fā)生了巨大的變化:從單個(gè)節(jié)點(diǎn)的獨(dú)享訪問,到集群、多機(jī)系統(tǒng)的共享訪問;從數(shù)據(jù)的分散存儲(chǔ),到集中存放、統(tǒng)一管理;從單個(gè)數(shù)據(jù)存放節(jié)點(diǎn),向數(shù)據(jù)中心發(fā)展,到建立跨城市、跨洲的數(shù)據(jù)存儲(chǔ)和備份體系。這些變化,對(duì)傳統(tǒng)的存儲(chǔ)系統(tǒng)的體系架構(gòu)、管理模式提出了挑戰(zhàn)。云存儲(chǔ)是一個(gè)有效地解決這些挑戰(zhàn)的途徑,并且已成為信息存儲(chǔ)領(lǐng)域的一個(gè)研究熱點(diǎn)。

可以說,云存儲(chǔ)是一種以數(shù)據(jù)存儲(chǔ)和管理為核心,通過網(wǎng)絡(luò)將大量異構(gòu)存儲(chǔ)設(shè)備構(gòu)成存儲(chǔ)資源池,融合了分布式存儲(chǔ)、多租戶共享、數(shù)據(jù)安全、數(shù)據(jù)去重等多種云存儲(chǔ)技術(shù),通過統(tǒng)一的Web服務(wù)接口為授權(quán)用戶提供靈活的、透明的、按需的存儲(chǔ)資源分配的云系統(tǒng)。

云存儲(chǔ)是在云計(jì)算基礎(chǔ)上衍生、延伸和發(fā)展出來的。它遵循了云計(jì)算共享基礎(chǔ)設(shè)施的服務(wù)理念,以傳統(tǒng)的大規(guī)模、可擴(kuò)展的海量數(shù)據(jù)存儲(chǔ)技術(shù)為基礎(chǔ),集成存儲(chǔ)、網(wǎng)絡(luò)、虛擬化和文件系統(tǒng)等多種技術(shù),以超大規(guī)模、高性能、高效率、低能耗、高度可擴(kuò)展、可靠性、可定制、動(dòng)態(tài)組合和面向規(guī)模龐大的群體服務(wù)為系統(tǒng)目標(biāo),為用戶提供高效廉價(jià)、安全可靠、可擴(kuò)展、可定制和按需使用的強(qiáng)大存儲(chǔ)服務(wù)。

云存儲(chǔ)以其獨(dú)特的特點(diǎn)和優(yōu)勢(shì),集成并突破多種傳統(tǒng)存儲(chǔ)技術(shù),避免用戶擔(dān)負(fù)昂貴的設(shè)備采購費(fèi)用及高額的管理和維護(hù)費(fèi)用,通過資源集中分配提高了資源利用率,屏蔽了海量異構(gòu)的數(shù)據(jù)存儲(chǔ)管理的復(fù)雜性,增強(qiáng)了存儲(chǔ)系統(tǒng)可擴(kuò)展性、可伸縮性、可靠性和健壯性。

云存儲(chǔ)的主要特征為網(wǎng)絡(luò)訪問、按需分配、用戶控制和標(biāo)準(zhǔn)開放??梢哉f,云存儲(chǔ)對(duì)存儲(chǔ)服務(wù)提供了更高層次的抽象,實(shí)現(xiàn)了操作系統(tǒng)和文件系統(tǒng)的無關(guān)性。這些特性融合在一起,在整體上提供了IaaS類型的基礎(chǔ)設(shè)施服務(wù)。然而,大多數(shù)普通用戶并不使用類似于Amazon S3的IaaS云存儲(chǔ)系統(tǒng)。相反,大多數(shù)用戶使用云存儲(chǔ)對(duì)數(shù)據(jù)進(jìn)行備份、同步、歸檔、分級(jí)、緩存,以及同一些其他類型的軟件進(jìn)行交互。云存儲(chǔ)系統(tǒng)往往在一個(gè)云存儲(chǔ)卷之上附加了應(yīng)用軟件服務(wù),從而使大多數(shù)產(chǎn)品符合SaaS服務(wù)模型。

云存儲(chǔ)設(shè)備可以是塊存儲(chǔ)設(shè)備、文件存儲(chǔ)設(shè)備或?qū)ο蟠鎯?chǔ)設(shè)備。塊存儲(chǔ)設(shè)備對(duì)于客戶端來說相當(dāng)于原始存儲(chǔ),可以被分區(qū)以創(chuàng)建卷。它由操作系統(tǒng)來創(chuàng)建和管理文件系統(tǒng)。從存儲(chǔ)設(shè)備的角度來看,數(shù)據(jù)的傳輸單位是塊。塊存儲(chǔ)之外的另一種選擇是文件服務(wù)器,通常采用網(wǎng)絡(luò)附加存儲(chǔ)(NAS)的形式。NAS維護(hù)自己的文件系統(tǒng),將存儲(chǔ)以文件形式提供給客戶。兩者相比較,塊存儲(chǔ)設(shè)備能夠提供更快的數(shù)據(jù)傳輸,但客戶端需要有額外的開銷。面向文件的存儲(chǔ)設(shè)備通常比較慢,但建立連接時(shí)客戶端開銷較小。對(duì)象存儲(chǔ)同時(shí)兼具塊存儲(chǔ)高速訪問及文件存儲(chǔ)分布式共享的特點(diǎn)。對(duì)象存儲(chǔ)系統(tǒng)由元數(shù)據(jù)服務(wù)器(Metadata Server,MDS)、存儲(chǔ)節(jié)點(diǎn)(Objectbased Storage Device,OSD)和客戶端構(gòu)成。元數(shù)據(jù)服務(wù)器負(fù)責(zé)管理文件的存儲(chǔ)位置、狀態(tài)等;存儲(chǔ)節(jié)點(diǎn)負(fù)責(zé)文件數(shù)據(jù)的存儲(chǔ);客戶端則負(fù)責(zé)對(duì)外接口訪問。數(shù)據(jù)通路(數(shù)據(jù)讀或?qū)懀┖涂刂仆罚ㄔ獢?shù)據(jù))分離。對(duì)象存儲(chǔ)等于扁平架構(gòu)分布式文件系統(tǒng)加上非POSIX(Portable Operating System Interface,POSIX)訪問方式,代表著存儲(chǔ)領(lǐng)域未來的發(fā)展方向。

總之,作為一種新型服務(wù)化存儲(chǔ)模式,云存儲(chǔ)可廣泛服務(wù)于經(jīng)濟(jì)建設(shè)、科學(xué)研究和國家安全等領(lǐng)域,具有重要而廣闊的應(yīng)用前景。

在大數(shù)據(jù)時(shí)代,數(shù)據(jù)量增長速度很快。伴隨著數(shù)據(jù)量的增長,數(shù)據(jù)的價(jià)值密度在持續(xù)降低。對(duì)于企業(yè)來說,顯然不能允許IT預(yù)算隨著數(shù)據(jù)量的增長而增長,相反,需要伴隨著下降的數(shù)據(jù)價(jià)值密度來控制大數(shù)據(jù)的收集、存儲(chǔ)、管理和分析成本。傳統(tǒng)的存儲(chǔ)技術(shù)在成本、可擴(kuò)展性等方面都無法滿足海量數(shù)據(jù)的快速增長需要。為此,很多企業(yè)選擇了具有更低組建成本的云存儲(chǔ)系統(tǒng)。可以說,云存儲(chǔ)是傳統(tǒng)存儲(chǔ)技術(shù)在大數(shù)據(jù)時(shí)代自然演進(jìn)的結(jié)果。相比傳統(tǒng)存儲(chǔ),云存儲(chǔ)具有如下優(yōu)勢(shì):

(1)硬件成本低。云存儲(chǔ)系統(tǒng)由大量的廉價(jià)的存儲(chǔ)設(shè)備組成。云存儲(chǔ)系統(tǒng)通過多副本技術(shù)得到了很強(qiáng)的容錯(cuò)能力,使得企業(yè)可以使用低端硬件替代高端硬件,如可采購入門級(jí)服務(wù)器來替代高性能服務(wù)器和高端存儲(chǔ)設(shè)備。此外,云存儲(chǔ)系統(tǒng)的硬件折舊成本也相對(duì)更低,這是因?yàn)樵拼鎯?chǔ)系統(tǒng)具有可擴(kuò)展架構(gòu),一些原本面臨淘汰的陳舊硬件也可以在云存儲(chǔ)系統(tǒng)中繼續(xù)使用。

(2)管理成本低。云存儲(chǔ)系統(tǒng),通過虛擬化技術(shù)對(duì)資源進(jìn)行池化管理,管理高度自動(dòng)化,極少需要人工干預(yù),可以大大降低管理成本。根據(jù)相關(guān)數(shù)據(jù),一個(gè)擁有5萬個(gè)服務(wù)器的特大型數(shù)據(jù)中心與擁有1000個(gè)服務(wù)器的中型數(shù)據(jù)中心相比,特大型數(shù)據(jù)中心的網(wǎng)絡(luò)和存儲(chǔ)單位成本只相當(dāng)于中型數(shù)據(jù)中心的1/5或者1/7,而每個(gè)管理員能夠管理的服務(wù)器數(shù)量則擴(kuò)大到7倍之多。因而,對(duì)于規(guī)模達(dá)到幾十萬至上百萬計(jì)算機(jī)的云存儲(chǔ)平臺(tái)而言,其網(wǎng)絡(luò)、存儲(chǔ)和管理單位成本僅需中型數(shù)據(jù)中心至少可以降低5~7倍。

(3)能耗成本低。能源使用效率(Power Usage Effectiveness,PUE)用來衡量數(shù)據(jù)中心的能源效率,等于數(shù)據(jù)中心所有設(shè)備能耗(包括IT電源,冷卻等設(shè)備)除以IT設(shè)備能耗。PUE是一個(gè)比率,基準(zhǔn)是2,越接近1表明能效水平越好。國內(nèi)很多中型數(shù)據(jù)中心的PUE值大于2,也就是說,一半以上的能源被白白浪費(fèi)掉了,而特大型數(shù)據(jù)中心,比如Facebook某太陽能供電數(shù)據(jù)中心的PUE值為1.07,幾乎沒有額外的能源損耗。大型的云存儲(chǔ)數(shù)據(jù)中心可以建設(shè)在水電站附近,通過協(xié)議電價(jià)有效節(jié)約能源開銷。

(4)資源利用率高。傳統(tǒng)的存儲(chǔ)系統(tǒng)資源利用率非常低,原因有兩個(gè)方面。首先,系統(tǒng)按照峰值需求進(jìn)行設(shè)計(jì),由此在夜晚、非業(yè)務(wù)高峰時(shí)段,大量的計(jì)算、存儲(chǔ)和帶寬資源被閑置。通過云存儲(chǔ)系統(tǒng),可實(shí)現(xiàn)基于多租戶多業(yè)務(wù)的彈性服務(wù),按需提供和釋放存儲(chǔ)資源,降低各個(gè)環(huán)節(jié)的冗余度,提高資源利用率。其次,傳統(tǒng)的存儲(chǔ)系統(tǒng)按照靜態(tài)方式分配存儲(chǔ)資源,大量的預(yù)留空間被浪費(fèi)。在云存儲(chǔ)系統(tǒng)中,通過服務(wù)器整合和重復(fù)數(shù)據(jù)刪除技術(shù),可以大幅減少不必要的存儲(chǔ)開銷,從而提高存儲(chǔ)資源的利用率。

(5)服務(wù)能力強(qiáng)。用戶在使用云存儲(chǔ)服務(wù)時(shí),不必關(guān)心存儲(chǔ)基礎(chǔ)設(shè)施的實(shí)現(xiàn)細(xì)節(jié),也不必關(guān)心底層的業(yè)務(wù)彈性和抗風(fēng)險(xiǎn)性,只需按照實(shí)際需求得到資源并付費(fèi),因而減少了不必要的精力浪費(fèi)和成本開支。此外,云存儲(chǔ)屬于托管存儲(chǔ)。云存儲(chǔ)可以將數(shù)據(jù)傳送到用戶選擇的任何媒介,用戶可以通過這些媒介實(shí)現(xiàn)隨時(shí)訪問及管理數(shù)據(jù)。

主站蜘蛛池模板: 行唐县| 磴口县| 文昌市| 乌兰浩特市| 金乡县| 胶州市| 宜都市| 澄江县| 涡阳县| 永清县| 辰溪县| 岢岚县| 喜德县| 甘谷县| 万载县| 青海省| 库伦旗| 岳普湖县| 通海县| 嘉黎县| SHOW| 万载县| 霍城县| 西峡县| 南涧| 沅陵县| 虞城县| 济阳县| 太和县| 洛阳市| 天峨县| 大兴区| 莱阳市| 理塘县| 钟山县| 江门市| 大厂| 香格里拉县| 凉山| 仁寿县| 灌南县|