官术网_书友最值得收藏!

1.2 大數據的基礎設施

在深入探究大數據基礎設施之前,我們先帶領讀者一覽大數據的全貌。表1-1從高層次視角對大數據細分領域進行了劃分。

表1-1

表1-1描述了大數據技術的細分領域。最底層是最關鍵的,支持可擴展和分布式存儲。

核心技術:核心底層軟件如Hadoop、MapReduce、Mahout、HBase和Cassandra等。再往上一層是基礎設施層,開發者依據用例和解決方案可以選擇合適的基礎設施。

數據分析基礎設施:EMC、Netezza、Vertica、Cloudera和Hortonworks。

可運維基礎設施:Couchbase、Teradata和Informatica等。

基礎設施即服務(IaaS):AWS和Google云等。

結構化數據庫:Oracle、SQLServer、MySQL和Sybase等。往上一層是特定需求的數據即服務(DaaS):Kaggle、Azure和Factual等。

商業智能(BI):Qlikview、Cognos和SAP BO等。

分析和可視化:Pentaho、Tableau和Tibco等。

可以看到,如今傳統的關系型數據庫仍然在為數據存儲及處理實現高效和低成本的效果而努力掙扎。傳統的關系型數據庫處理大數據的成本非常高,通過擴展的方式很難滿足低延遲的要求。正是由于以上現狀,才促進了具有低成本、低時延、高擴展性、開源等需求的新技術的涌現。黃色的大象——Hadoop成為救星,它出其不意地占領了數據存儲和計算的競技場。Hadoop作為分布式數據存儲和計算框架,在設計上具有非常高的可靠性和可擴展性。Hadoop計算方法的核心是將數據分塊存儲在集群的所有節點上,然后在所有節點上并行地處理數據。

相信到了這里,讀者已經對大數據的基礎知識和全貌有了一些認識,能夠以Hadoop框架為例來深入研究大數據的概念。接下來繼續研究實現Hadoop集群的體系結構和方法,這與高層基礎設施和大型數據集群的典型存儲需求非常相似。本書將深入研究的另一個關鍵話題是大數據環境下的信息安全。圖1-1主要指出大數據基礎設施中的幾個關鍵因素。

圖1-1

集群設計:這是基礎設施規劃中最重要且最有決定性的一個因素?;A設施的集群設計策略基本上是解決方案的主要考慮因素,包括應用程序用例和要求、工作負載、資源計算(取決于是內存密集型還是計算密集型)以及安全性。除了計算、內存和網絡利用率,另一個重要因素是存儲,它將基于云或本地。云的選擇有公共云、私有云或混合云,這取決于應用場景和企業的需求。

硬件架構:存儲成本主要取決于存儲數據的體量、存檔策略以及數據生存期限。決定性因素有兩點。第一點是實現的算力需求(商用化組件是否豐富,或者是否需要高性能GPU)。第二點,內存需求是什么?是低等、中等,還是高等?這取決于應用程序實現內存算力需求。

網絡架構:這聽起來可能不是很重要,但它是大數據應用的一個重要驅動力。原因在于大數據的關鍵是分布式計算,而且網絡利用率比單服務器單片集成實現的情況高得多。在分布式計算中,數據負載和中間計算結果在網絡上傳輸。因此,網絡帶寬成為總體解決方案的節流代理,并且取決于基礎設施策略的主要方面的選擇。糟糕的設計方法有時會導致網絡阻塞,其中數據在處理上花費的時間更少,而在通過網絡或等待傳輸以供下一步執行所花費的時間更多。

安全架構:安全對于任何應用程序來說都是非常重要的。在大數據應用場景下,由于它的體量和多樣性,以及計算需要通過網絡獲取數據,因此安全就變得更加重要。安全對大數據基礎設施具有關鍵性和戰略性意義,云計算和存儲選型這兩方面進一步增加了未來對其需求的復雜性。

主站蜘蛛池模板: 奎屯市| 渭源县| 五台县| 古丈县| 呈贡县| 伊通| 贡山| 剑河县| 大埔县| 隆回县| 常山县| 佳木斯市| 招远市| 东山县| 西和县| 肥城市| 元朗区| 潜江市| 林甸县| 巴青县| 全椒县| 汉阴县| 黄石市| 靖州| 嵊州市| 尼玛县| 手机| 资兴市| 宽甸| 博野县| 漠河县| 巩义市| 绵阳市| 连云港市| 云梦县| 修武县| 邵阳县| 南城县| 都昌县| 铜陵市| 清丰县|