官术网_书友最值得收藏!

第2章 批處理計算模式及其應用

2.1 批處理技術

隨著IT技術及Web 2.0的廣泛應用,大型企業(yè)收集了海量的數(shù)據(jù)的PB級數(shù)據(jù),并且數(shù)據(jù)量在持續(xù)增長;隨著物聯(lián)網(wǎng)技術應用的推進,也會收集海量的數(shù)據(jù)。這些海量數(shù)據(jù)中蘊涵著豐富的知識,通過對這些海量數(shù)據(jù)進行分析,可以為企業(yè)帶來可觀的收益。因此,為了有效地對海量數(shù)據(jù)進行處理,近年來,工業(yè)界提出了云計算(Cloud Computing)技術。普遍認為,云計算是處理海量數(shù)據(jù)的一種有效方式,其內(nèi)涵主要是指IT基礎設施的交付和使用模式,普通用戶可以通過網(wǎng)絡以按需、易擴展的方式獲得所需要的資源。一般來說云計算主要包含以下3個層級。

(1)基礎架構即服務(Infrastructure-as-a-Service, IaaS):意味著從云中提供虛擬服務器、虛擬桌面計算機或遠程存儲,從而避免硬件和人力資源上的資本投入。

(2)平臺即服務(Platform-as-a-Service, PaaS):平臺服務是實踐云計算的重點之一,將應用運行所需的各種IT資源和基礎設施以服務的方式提供給用戶使用,包括中間件服務、系統(tǒng)服務、通信服務等,并提供消息服務等多種服務形式。

(3)軟件即服務(Software-as-a-Service, SaaS):是一種通過Internet提供軟件使用和服務的模式,用戶無須購買軟件,而是向提供商租用基于Web的軟件,來管理企業(yè)經(jīng)營活動。相對于傳統(tǒng)的購買和自主開發(fā)軟件,SaaS解決方案有明顯的優(yōu)勢,包括較低的前期成本,便于系統(tǒng)維護、升級及快速展開應用等。

通常云計算應該具備以下幾條特征:基于虛擬化技術快速部署資源或獲得服務;實現(xiàn)動態(tài)的、可伸縮的擴展;按需求提供資源、按使用量付費;通過互聯(lián)網(wǎng)提供、面向海量信息處理;用戶可以方便地參與;形態(tài)靈活,聚散自如;減少用戶終端的處理負擔;降低了用戶對于IT專業(yè)知識的依賴。

針對智能電網(wǎng)中收集的大數(shù)據(jù),需要挖掘數(shù)據(jù)價值,提高數(shù)據(jù)利用率。當前處理離線數(shù)據(jù)的有效方式是批處理技術,比如主流的Hadoop MapReduce技術。批量計算首先進行數(shù)據(jù)的存儲,然后再對存儲的靜態(tài)數(shù)據(jù)進行集中計算。Hadoop是當前主流且典型的大數(shù)據(jù)批量計算架構,由HDFS(Hadoop Distributed File System)分布式文件系統(tǒng)負責靜態(tài)數(shù)據(jù)的存儲,并通過MapReduce將計算邏輯分配到各數(shù)據(jù)節(jié)點進行數(shù)據(jù)計算和價值發(fā)現(xiàn)。

Hadoop分布式文件系統(tǒng)(HDFS)被設計成適合運行在通用硬件(Commodity Hardware)上的分布式文件系統(tǒng)。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點,但同時它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。HDFS是一個高度容錯性的系統(tǒng),適合部署在廉價的機器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應用。HDFS放寬了一部分POSIX約束,實現(xiàn)流式讀取文件系統(tǒng)數(shù)據(jù)的目的。HDFS在最開始是作為Apache Nutch搜索引擎項目的基礎架構而開發(fā)的。HDFS是Apache Hadoop Core項目的一部分。HDFS有著高容錯性(Fault-tolerant)的特點,并且設計用來部署在低廉的(Low-cost)硬件上。而且它提供高吞吐量(High Throughput)來訪問應用程序的數(shù)據(jù),適合那些有超大數(shù)據(jù)集(Iarge Data Set)的應用程序。HDFS放寬了(Relax)POSIX的要求(Requirements),這樣可以實現(xiàn)流的形式訪問(Streaming Access)文件系統(tǒng)中的數(shù)據(jù),其分布式存儲結構如圖2-1所示。

圖2-1 HDFS的分布式存儲結構

MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運算。概念“Map(映射)”和“Reduce(歸約)”和它們的主要思想都是從函數(shù)式編程語言里借來的,還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)上。當前的軟件實現(xiàn)是指定一個Map(映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce(歸約)函數(shù),用來保證所有映射的鍵值對中的每一個共享相同的鍵組。比如經(jīng)典的wordcount的實現(xiàn)過程如圖2-2所示。

圖2-2 MapReduce的執(zhí)行過程

本節(jié)將針對智能電網(wǎng)大數(shù)據(jù)利用云計算技術進行處理,包括利用歷史數(shù)據(jù)預測短期用電負荷;利用聚類算法實現(xiàn)監(jiān)測數(shù)據(jù)的劃分,減少人工工作量;利用并行EEMD(EnsembleEmpirical Mode Decomposition)算法,提高信號處理的算法。主要采用的是Hadoop MapReduce技術。

隨著智能電網(wǎng)的發(fā)展,電網(wǎng)與用戶之間的交互行為將顯著增長。通過與用戶的廣泛交互,原來不能或很難獲取的信息現(xiàn)在變得觸手可得,這必將為智能電網(wǎng)發(fā)展提供更多的機遇。在智能電網(wǎng)環(huán)境下,通過云計算技術幫助海量用戶預測短期電力負荷,從而通過利用群體智慧提高電網(wǎng)公司短期用電負荷預測的準確性。該方法有效地利用了MapReduce技術,具有較高的效率和可擴展性。

近年來,隨著輸變電設備狀態(tài)監(jiān)測的廣度和深度不斷加強,收集的監(jiān)測數(shù)據(jù)越來越多,逐漸形成了智能電網(wǎng)狀態(tài)監(jiān)測大數(shù)據(jù)。然而,如何有效地存儲和分析狀態(tài)監(jiān)測大數(shù)據(jù)是大數(shù)據(jù)在狀態(tài)監(jiān)測領域應用的關鍵問題之一。基于云計算平臺并考慮狀態(tài)監(jiān)測數(shù)據(jù)的特點,將監(jiān)測數(shù)據(jù)海量小文件組合成大的序列文件,并壓縮存儲,從而提高存儲和處理效率。針對狀態(tài)監(jiān)測大數(shù)據(jù)價值密度低的特點,首先利用分形理論對監(jiān)測數(shù)據(jù)降維處理,提取時域和頻域特征量,并使用密度聚類算法(Density-Based Spatial Clustering of Application with Noise, DBSCAN)對樣本數(shù)據(jù)聚類劃分,提取不同聚類的特征數(shù)據(jù);然后結合云平臺的數(shù)據(jù)處理能力設計MapReduce并行算法,實現(xiàn)狀態(tài)監(jiān)測大數(shù)據(jù)的聚類劃分,并更新和豐富樣本特征數(shù)據(jù)。實驗結果表明,該方法可以有效存儲狀態(tài)監(jiān)測大數(shù)據(jù)并提取特征數(shù)據(jù),為提高設備的狀態(tài)評估及診斷具有一定輔助作用。

局部放電的檢測對于大型電力變壓器在監(jiān)測和故障診斷具有重要的實際意義。局部放電信號通常非常微弱,而數(shù)據(jù)采集現(xiàn)場往往又含有大量的噪聲干擾,可能將局部放電信號淹沒。因此,如何正確地從采集到的信號中提取出局部放電信號是對變壓器進行在線監(jiān)測時首要解決的問題。本文開展了基于MapReduce并行技術的EEMD信號處理技術研究。

主站蜘蛛池模板: 临泉县| 嘉兴市| 甘孜| 新巴尔虎右旗| 镇雄县| 泽库县| 河间市| 左云县| 甘泉县| 隆安县| 慈利县| 奉新县| 曲松县| 陆丰市| 彭州市| 东源县| 鹤庆县| 东台市| 本溪市| 高尔夫| 鄂伦春自治旗| 枣阳市| 沈丘县| 罗定市| 长沙市| 华坪县| 福海县| 治县。| 平泉县| 嘉义县| 江山市| 双江| 讷河市| 通道| 双柏县| 个旧市| 平阴县| 鹤峰县| 郁南县| 临清市| 临洮县|