pg试玩平台网址

書名： Ceph企業(yè)級(jí)分布式存儲(chǔ)：原理與工程實(shí)踐
作者名：景顯強(qiáng) 龔向宇黃軍寶
本章字?jǐn)?shù)： 573字
更新時(shí)間： 2021-11-05 10:18:44

1.4.1　分析類應(yīng)用場(chǎng)景舉例

由于大數(shù)據(jù)分析中捕獲的數(shù)據(jù)量巨大，并且需要在數(shù)據(jù)專家和數(shù)據(jù)分析師團(tuán)隊(duì)之間共享有限的資源，因此傳統(tǒng)的數(shù)據(jù)分析基礎(chǔ)架構(gòu)承受著巨大的壓力。各方呼吁推出一種全新的架構(gòu)和存儲(chǔ)形態(tài)。一些數(shù)據(jù)平臺(tái)團(tuán)隊(duì)正在將Apache Hadoop和Spark大數(shù)據(jù)分析平臺(tái)作為其數(shù)據(jù)分析的主要工具，后端采用Hadoop分布式文件系統(tǒng)（HDFS）集群。不幸的是，由于HDFS通常不會(huì)在不同集群之間共享數(shù)據(jù)，因此在大型計(jì)算集群中的每個(gè)集群間復(fù)制數(shù)據(jù)會(huì)付出很高的代價(jià)。

一些團(tuán)隊(duì)希望其集群的分析工具盡量穩(wěn)定，因此不愿意更新版本，而其數(shù)據(jù)分析的業(yè)務(wù)單元需要加載最新的分析工具版本。最終，這些團(tuán)隊(duì)都構(gòu)建了自己?jiǎn)为?dú)的、量身定制的分析集群，以免與其他團(tuán)隊(duì)競(jìng)爭(zhēng)資源。使用傳統(tǒng)的Hadoop時(shí)，每個(gè)單獨(dú)的分析集群通常都有自己專用的HDFS數(shù)據(jù)包。

為了在不同的Hadoop / HDFS集群中能訪問(wèn)相同的數(shù)據(jù)，平臺(tái)團(tuán)隊(duì)必須在集群之間復(fù)制非常大的數(shù)據(jù)集，以保持?jǐn)?shù)據(jù)的一致性和時(shí)效性。因此，公司維護(hù)了許多單獨(dú)的固定分析集群（其中一家公司中有50多個(gè)集群）。每個(gè)集群在HDFS中都有自己的冗余數(shù)據(jù)副本。就資本支出（Capex）和運(yùn)營(yíng)支出（Opex）而言，在各個(gè)集群上維護(hù)5PB、10PB或20PB副本數(shù)據(jù)的成本都非常高。

Ceph和IaaS云、PaaS云的結(jié)合為解決上述一系列問(wèn)題提供了新的方案。Ceph在底層多集群間可以實(shí)現(xiàn)數(shù)據(jù)自動(dòng)同步，這大大降低了集群數(shù)據(jù)復(fù)制的開銷和運(yùn)營(yíng)成本，為Hadoop或Spark的大數(shù)據(jù)分析工具提供了另一種分布式存儲(chǔ)選擇。

官术网_书友最值得收藏!

Ceph企業(yè)級(jí)分布式存儲(chǔ)：原理與工程實(shí)踐

1.4.1 分析類應(yīng)用場(chǎng)景舉例

1.4.1　分析類應(yīng)用場(chǎng)景舉例