- Ceph企業(yè)級(jí)分布式存儲(chǔ):原理與工程實(shí)踐
- 景顯強(qiáng) 龔向宇 黃軍寶
- 573字
- 2021-11-05 10:18:44
1.4.1 分析類應(yīng)用場(chǎng)景舉例
由于大數(shù)據(jù)分析中捕獲的數(shù)據(jù)量巨大,并且需要在數(shù)據(jù)專家和數(shù)據(jù)分析師團(tuán)隊(duì)之間共享有限的資源,因此傳統(tǒng)的數(shù)據(jù)分析基礎(chǔ)架構(gòu)承受著巨大的壓力。各方呼吁推出一種全新的架構(gòu)和存儲(chǔ)形態(tài)。一些數(shù)據(jù)平臺(tái)團(tuán)隊(duì)正在將Apache Hadoop和Spark大數(shù)據(jù)分析平臺(tái)作為其數(shù)據(jù)分析的主要工具,后端采用Hadoop分布式文件系統(tǒng)(HDFS)集群。不幸的是,由于HDFS通常不會(huì)在不同集群之間共享數(shù)據(jù),因此在大型計(jì)算集群中的每個(gè)集群間復(fù)制數(shù)據(jù)會(huì)付出很高的代價(jià)。
一些團(tuán)隊(duì)希望其集群的分析工具盡量穩(wěn)定,因此不愿意更新版本,而其數(shù)據(jù)分析的業(yè)務(wù)單元需要加載最新的分析工具版本。最終,這些團(tuán)隊(duì)都構(gòu)建了自己?jiǎn)为?dú)的、量身定制的分析集群,以免與其他團(tuán)隊(duì)競(jìng)爭(zhēng)資源。使用傳統(tǒng)的Hadoop時(shí),每個(gè)單獨(dú)的分析集群通常都有自己專用的HDFS數(shù)據(jù)包。
為了在不同的Hadoop / HDFS集群中能訪問(wèn)相同的數(shù)據(jù),平臺(tái)團(tuán)隊(duì)必須在集群之間復(fù)制非常大的數(shù)據(jù)集,以保持?jǐn)?shù)據(jù)的一致性和時(shí)效性。因此,公司維護(hù)了許多單獨(dú)的固定分析集群(其中一家公司中有50多個(gè)集群)。每個(gè)集群在HDFS中都有自己的冗余數(shù)據(jù)副本。就資本支出(Capex)和運(yùn)營(yíng)支出(Opex)而言,在各個(gè)集群上維護(hù)5PB、10PB或20PB副本數(shù)據(jù)的成本都非常高。
Ceph和IaaS云、PaaS云的結(jié)合為解決上述一系列問(wèn)題提供了新的方案。Ceph在底層多集群間可以實(shí)現(xiàn)數(shù)據(jù)自動(dòng)同步,這大大降低了集群數(shù)據(jù)復(fù)制的開銷和運(yùn)營(yíng)成本,為Hadoop或Spark的大數(shù)據(jù)分析工具提供了另一種分布式存儲(chǔ)選擇。
- Linux實(shí)戰(zhàn)
- Arch Linux Environment Setup How-to
- WindowsServer2012Hyper-V虛擬化部署與管理指南
- Windows Phone 7.5 Data Cookbook
- 精解Windows8
- 嵌入式操作系統(tǒng)(Linux篇)(微課版)
- Java EE 8 Design Patterns and Best Practices
- Windows Server 2012網(wǎng)絡(luò)操作系統(tǒng)企業(yè)應(yīng)用案例詳解
- 移動(dòng)應(yīng)用UI設(shè)計(jì)模式(第2版)
- 一學(xué)就會(huì):Windows Vista應(yīng)用完全自學(xué)手冊(cè)
- Linux服務(wù)器配置與管理
- Kali Linux高級(jí)滲透測(cè)試
- Red Hat Enterprise Linux 6.4網(wǎng)絡(luò)操作系統(tǒng)詳解
- Ubuntu Linux操作系統(tǒng)實(shí)用教程
- 嵌入式微系統(tǒng)