官术网_书友最值得收藏!

第2章 批處理計算模式及其應用

2.1 批處理技術

隨著IT技術及Web 2.0的廣泛應用,大型企業收集了海量的數據的PB級數據,并且數據量在持續增長;隨著物聯網技術應用的推進,也會收集海量的數據。這些海量數據中蘊涵著豐富的知識,通過對這些海量數據進行分析,可以為企業帶來可觀的收益。因此,為了有效地對海量數據進行處理,近年來,工業界提出了云計算(Cloud Computing)技術。普遍認為,云計算是處理海量數據的一種有效方式,其內涵主要是指IT基礎設施的交付和使用模式,普通用戶可以通過網絡以按需、易擴展的方式獲得所需要的資源。一般來說云計算主要包含以下3個層級。

(1)基礎架構即服務(Infrastructure-as-a-Service, IaaS):意味著從云中提供虛擬服務器、虛擬桌面計算機或遠程存儲,從而避免硬件和人力資源上的資本投入。

(2)平臺即服務(Platform-as-a-Service, PaaS):平臺服務是實踐云計算的重點之一,將應用運行所需的各種IT資源和基礎設施以服務的方式提供給用戶使用,包括中間件服務、系統服務、通信服務等,并提供消息服務等多種服務形式。

(3)軟件即服務(Software-as-a-Service, SaaS):是一種通過Internet提供軟件使用和服務的模式,用戶無須購買軟件,而是向提供商租用基于Web的軟件,來管理企業經營活動。相對于傳統的購買和自主開發軟件,SaaS解決方案有明顯的優勢,包括較低的前期成本,便于系統維護、升級及快速展開應用等。

通常云計算應該具備以下幾條特征:基于虛擬化技術快速部署資源或獲得服務;實現動態的、可伸縮的擴展;按需求提供資源、按使用量付費;通過互聯網提供、面向海量信息處理;用戶可以方便地參與;形態靈活,聚散自如;減少用戶終端的處理負擔;降低了用戶對于IT專業知識的依賴。

針對智能電網中收集的大數據,需要挖掘數據價值,提高數據利用率。當前處理離線數據的有效方式是批處理技術,比如主流的Hadoop MapReduce技術。批量計算首先進行數據的存儲,然后再對存儲的靜態數據進行集中計算。Hadoop是當前主流且典型的大數據批量計算架構,由HDFS(Hadoop Distributed File System)分布式文件系統負責靜態數據的存儲,并通過MapReduce將計算邏輯分配到各數據節點進行數據計算和價值發現。

Hadoop分布式文件系統(HDFS)被設計成適合運行在通用硬件(Commodity Hardware)上的分布式文件系統。它和現有的分布式文件系統有很多共同點,但同時它和其他的分布式文件系統的區別也是很明顯的。HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,非常適合大規模數據集上的應用。HDFS放寬了一部分POSIX約束,實現流式讀取文件系統數據的目的。HDFS在最開始是作為Apache Nutch搜索引擎項目的基礎架構而開發的。HDFS是Apache Hadoop Core項目的一部分。HDFS有著高容錯性(Fault-tolerant)的特點,并且設計用來部署在低廉的(Low-cost)硬件上。而且它提供高吞吐量(High Throughput)來訪問應用程序的數據,適合那些有超大數據集(Iarge Data Set)的應用程序。HDFS放寬了(Relax)POSIX的要求(Requirements),這樣可以實現流的形式訪問(Streaming Access)文件系統中的數據,其分布式存儲結構如圖2-1所示。

圖2-1 HDFS的分布式存儲結構

MapReduce是一種編程模型,用于大規模數據集的并行運算。概念“Map(映射)”和“Reduce(歸約)”和它們的主要思想都是從函數式編程語言里借來的,還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統上。當前的軟件實現是指定一個Map(映射)函數,用來把一組鍵值對映射成一組新的鍵值對,指定并發的Reduce(歸約)函數,用來保證所有映射的鍵值對中的每一個共享相同的鍵組。比如經典的wordcount的實現過程如圖2-2所示。

圖2-2 MapReduce的執行過程

本節將針對智能電網大數據利用云計算技術進行處理,包括利用歷史數據預測短期用電負荷;利用聚類算法實現監測數據的劃分,減少人工工作量;利用并行EEMD(EnsembleEmpirical Mode Decomposition)算法,提高信號處理的算法。主要采用的是Hadoop MapReduce技術。

隨著智能電網的發展,電網與用戶之間的交互行為將顯著增長。通過與用戶的廣泛交互,原來不能或很難獲取的信息現在變得觸手可得,這必將為智能電網發展提供更多的機遇。在智能電網環境下,通過云計算技術幫助海量用戶預測短期電力負荷,從而通過利用群體智慧提高電網公司短期用電負荷預測的準確性。該方法有效地利用了MapReduce技術,具有較高的效率和可擴展性。

近年來,隨著輸變電設備狀態監測的廣度和深度不斷加強,收集的監測數據越來越多,逐漸形成了智能電網狀態監測大數據。然而,如何有效地存儲和分析狀態監測大數據是大數據在狀態監測領域應用的關鍵問題之一。基于云計算平臺并考慮狀態監測數據的特點,將監測數據海量小文件組合成大的序列文件,并壓縮存儲,從而提高存儲和處理效率。針對狀態監測大數據價值密度低的特點,首先利用分形理論對監測數據降維處理,提取時域和頻域特征量,并使用密度聚類算法(Density-Based Spatial Clustering of Application with Noise, DBSCAN)對樣本數據聚類劃分,提取不同聚類的特征數據;然后結合云平臺的數據處理能力設計MapReduce并行算法,實現狀態監測大數據的聚類劃分,并更新和豐富樣本特征數據。實驗結果表明,該方法可以有效存儲狀態監測大數據并提取特征數據,為提高設備的狀態評估及診斷具有一定輔助作用。

局部放電的檢測對于大型電力變壓器在監測和故障診斷具有重要的實際意義。局部放電信號通常非常微弱,而數據采集現場往往又含有大量的噪聲干擾,可能將局部放電信號淹沒。因此,如何正確地從采集到的信號中提取出局部放電信號是對變壓器進行在線監測時首要解決的問題。本文開展了基于MapReduce并行技術的EEMD信號處理技術研究。

主站蜘蛛池模板: 温州市| 休宁县| 兴文县| 湾仔区| 邵阳县| 浏阳市| 阿荣旗| 大渡口区| 黄平县| 安庆市| 大城县| 云龙县| 林甸县| 德江县| 云霄县| 页游| 临桂县| 鸡东县| 龙泉市| 富源县| 和田县| 青冈县| 临沂市| 如东县| 祁东县| 南郑县| 乡宁县| 诸城市| 罗甸县| 靖西县| 柳州市| 南丰县| 宁化县| 辽宁省| 怀远县| 五原县| 绥江县| 永嘉县| 临清市| 土默特右旗| 瓦房店市|