官术网_书友最值得收藏!

1.4.1 分析類應(yīng)用場(chǎng)景舉例

由于大數(shù)據(jù)分析中捕獲的數(shù)據(jù)量巨大,并且需要在數(shù)據(jù)專家和數(shù)據(jù)分析師團(tuán)隊(duì)之間共享有限的資源,因此傳統(tǒng)的數(shù)據(jù)分析基礎(chǔ)架構(gòu)承受著巨大的壓力。各方呼吁推出一種全新的架構(gòu)和存儲(chǔ)形態(tài)。一些數(shù)據(jù)平臺(tái)團(tuán)隊(duì)正在將Apache Hadoop和Spark大數(shù)據(jù)分析平臺(tái)作為其數(shù)據(jù)分析的主要工具,后端采用Hadoop分布式文件系統(tǒng)(HDFS)集群。不幸的是,由于HDFS通常不會(huì)在不同集群之間共享數(shù)據(jù),因此在大型計(jì)算集群中的每個(gè)集群間復(fù)制數(shù)據(jù)會(huì)付出很高的代價(jià)。

一些團(tuán)隊(duì)希望其集群的分析工具盡量穩(wěn)定,因此不愿意更新版本,而其數(shù)據(jù)分析的業(yè)務(wù)單元需要加載最新的分析工具版本。最終,這些團(tuán)隊(duì)都構(gòu)建了自己?jiǎn)为?dú)的、量身定制的分析集群,以免與其他團(tuán)隊(duì)競(jìng)爭(zhēng)資源。使用傳統(tǒng)的Hadoop時(shí),每個(gè)單獨(dú)的分析集群通常都有自己專用的HDFS數(shù)據(jù)包。

為了在不同的Hadoop / HDFS集群中能訪問(wèn)相同的數(shù)據(jù),平臺(tái)團(tuán)隊(duì)必須在集群之間復(fù)制非常大的數(shù)據(jù)集,以保持?jǐn)?shù)據(jù)的一致性和時(shí)效性。因此,公司維護(hù)了許多單獨(dú)的固定分析集群(其中一家公司中有50多個(gè)集群)。每個(gè)集群在HDFS中都有自己的冗余數(shù)據(jù)副本。就資本支出(Capex)和運(yùn)營(yíng)支出(Opex)而言,在各個(gè)集群上維護(hù)5PB、10PB或20PB副本數(shù)據(jù)的成本都非常高。

Ceph和IaaS云、PaaS云的結(jié)合為解決上述一系列問(wèn)題提供了新的方案。Ceph在底層多集群間可以實(shí)現(xiàn)數(shù)據(jù)自動(dòng)同步,這大大降低了集群數(shù)據(jù)復(fù)制的開銷和運(yùn)營(yíng)成本,為Hadoop或Spark的大數(shù)據(jù)分析工具提供了另一種分布式存儲(chǔ)選擇。

主站蜘蛛池模板: 迁安市| 班戈县| 安陆市| 石门县| 安宁市| 浠水县| 南陵县| 伊金霍洛旗| 鄂伦春自治旗| 林芝县| 义马市| 大名县| 翁源县| 浑源县| 清原| 苍山县| 金平| 开封县| 栾城县| 堆龙德庆县| 中方县| 涿鹿县| 青阳县| 龙游县| 平凉市| 鹤庆县| 西乡县| 建水县| 榕江县| 且末县| 安康市| 万盛区| 田阳县| 许昌市| 应城市| 怀远县| 肥乡县| 同德县| 老河口市| 陇西县| 荣昌县|