官术网_书友最值得收藏!

1.4 大數(shù)據(jù)處理技術(shù)

1.4.1 大數(shù)據(jù)處理的價值和復(fù)雜性

近年來,大數(shù)據(jù)已經(jīng)成為科技界和產(chǎn)業(yè)界共同關(guān)注的熱點。2012年3月,美國奧巴馬政府宣布投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”。美國政府認為大數(shù)據(jù)是“未來的新石油”,將“大數(shù)據(jù)研究”上升為國家意志,對未來的科技與經(jīng)濟發(fā)展必將帶來深遠影響。一個國家擁有數(shù)據(jù)的規(guī)模和運用數(shù)據(jù)的能力將成為綜合國力的重要組成部分,對數(shù)據(jù)的占有和控制也將成為國家間和企業(yè)間新的爭奪焦點。

目前全球數(shù)據(jù)的存儲和處理能力已遠落后于數(shù)據(jù)的增長幅度。例如,淘寶網(wǎng)每日新增的交易數(shù)據(jù)達10TB;eBay分析平臺日處理數(shù)據(jù)量高達100PB,超過了美國納斯達克交易所全天的數(shù)據(jù)處理量;沃爾瑪是最早利用大數(shù)據(jù)分析并因此受益的企業(yè)之一,曾創(chuàng)造了“啤酒與尿布”的經(jīng)典商業(yè)案例?,F(xiàn)在沃爾瑪每小時處理100萬件交易,將有大約2.5PB的數(shù)據(jù)存入數(shù)據(jù)庫,此數(shù)據(jù)量是美國國會圖書館的167倍;微軟花了20年,耗費數(shù)百萬美元完成的Office拼寫檢查功能,谷歌公司則利用大數(shù)據(jù)統(tǒng)計分析直接實現(xiàn)。

與大數(shù)據(jù)在商業(yè)及互聯(lián)網(wǎng)領(lǐng)域的廣泛研究和應(yīng)用相比,大數(shù)據(jù)在智能電網(wǎng)建設(shè)的研究中還有待進一步加強。由于云計算平臺具有存儲量大、廉價、可靠性高、可擴展性強等優(yōu)勢,但在實時性方面難以保證,故它不適合于作為電網(wǎng)調(diào)度自動化系統(tǒng)的主系統(tǒng),但可用于調(diào)度自動化系統(tǒng)的后臺,也可用于智能電網(wǎng)數(shù)據(jù)中心(營銷、管理和設(shè)備狀態(tài)監(jiān)測)。云平臺環(huán)境下的通用大數(shù)據(jù)處理和展現(xiàn)工具正在不斷涌現(xiàn),為減少軟件開發(fā)工作帶來了好處。然而,數(shù)據(jù)挖掘通常是與具體應(yīng)用對象相關(guān)的,大數(shù)據(jù)挖掘是一個不小的挑戰(zhàn)。如故障錄波數(shù)據(jù)初次篩選等一些基于聚類方法的應(yīng)用,在面對海量數(shù)據(jù)時,傳統(tǒng)聚類算法在普通計算系統(tǒng)上無法完成。此外,在數(shù)據(jù)處理面臨規(guī)?;魬?zhàn)的同時,數(shù)據(jù)處理需求的多樣化逐漸顯現(xiàn)。相比支撐單業(yè)務(wù)類型的數(shù)據(jù)處理業(yè)務(wù),公共數(shù)據(jù)處理平臺需要處理的大數(shù)據(jù)涉及在線/離線、線性/非線性,流數(shù)據(jù)和圖數(shù)據(jù)等多種復(fù)雜混合計算方式。下面對目前主流的大數(shù)據(jù)處理技術(shù)進行綜述,并指出在應(yīng)對智能電網(wǎng)大數(shù)據(jù)時這些技術(shù)的局限性,探討了可能的解決方案。

1.4.2 并行數(shù)據(jù)庫

關(guān)系型數(shù)據(jù)庫系統(tǒng)在電力系統(tǒng)中獲得了廣泛的應(yīng)用,比如Oracle等。關(guān)系數(shù)據(jù)庫主要存儲結(jié)構(gòu)化數(shù)據(jù),提供便捷的數(shù)據(jù)查詢分析能力、按照嚴格規(guī)則快速處理事務(wù)(Transaction)的能力、多用戶并發(fā)訪問能力以及數(shù)據(jù)安全性的保證。其通過SQL語言查詢語言及強大的數(shù)據(jù)分析能力以及較高的程序與數(shù)據(jù)獨立性等優(yōu)點獲得廣泛應(yīng)用。

然而隨著智能電網(wǎng)建設(shè)的加速,數(shù)據(jù)已遠遠超出關(guān)系型數(shù)據(jù)庫的管理范疇,地理信息系統(tǒng)以及圖片、音視頻等各種非結(jié)構(gòu)化數(shù)據(jù)逐漸成為需要存儲和處理的海量數(shù)據(jù)的重要組成部分。面向結(jié)構(gòu)化數(shù)據(jù)存儲的關(guān)系型數(shù)據(jù)庫已經(jīng)不能滿足智能電網(wǎng)大數(shù)據(jù)快速訪問、大規(guī)模數(shù)據(jù)分析的需求,主要表現(xiàn)在如下幾個方面。

1.數(shù)據(jù)存儲容量有限

關(guān)系數(shù)據(jù)庫可以有效處理TB級的數(shù)據(jù),當數(shù)據(jù)量達到PB級時,目前主流數(shù)據(jù)庫很難處理。為了回避此問題,目前電力企業(yè)采用先從“生數(shù)據(jù)”中提取“熟數(shù)據(jù)”的存儲方式,這樣雖然可以減少網(wǎng)絡(luò)傳輸和數(shù)據(jù)庫存儲的數(shù)據(jù)量,但不可避免損失“生數(shù)據(jù)”中隱藏的重要特征量信息,如絕緣的放電頻譜。

2.關(guān)系模型束縛對海量數(shù)據(jù)的快速訪問能力

關(guān)系模型是一種按內(nèi)容訪問的模型,即在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫中,根據(jù)列的值來定位相應(yīng)的行。這種訪問模型會在數(shù)據(jù)訪問過程中引入耗時的輸入輸出,從而影響快速訪問的能力。雖然傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)可以通過分區(qū)的技術(shù)(水平分區(qū)和垂直分區(qū)),來減少查詢過程中數(shù)據(jù)輸入輸出的次數(shù)以縮減響應(yīng)時間,提高數(shù)據(jù)處理能力,但是在海量數(shù)據(jù)的規(guī)模下,這種分區(qū)所帶來的性能改善并不顯著。

3.缺乏對非結(jié)構(gòu)化數(shù)據(jù)的處理能力

傳統(tǒng)的關(guān)系型數(shù)據(jù)庫對數(shù)據(jù)的處理只局限于某些數(shù)據(jù)類型,比如數(shù)字、字符、字符串等,對非結(jié)構(gòu)化數(shù)據(jù)(圖片、音頻等)的支持較差。然而隨著用戶應(yīng)用需求的提高、硬件技術(shù)的發(fā)展和互聯(lián)網(wǎng)上多媒體交流方式的推廣,用戶對多媒體處理的要求從簡單的存儲上升為識別、檢索和深入加工,面對日益增長的處理龐大的聲音、圖像、視頻、E-mail等復(fù)雜數(shù)據(jù)類型的需求,傳統(tǒng)數(shù)據(jù)庫已顯得力不從心。

4.擴展性差

在海量規(guī)模下,傳統(tǒng)數(shù)據(jù)庫一個致命弱點,就是其可擴展性(Scalability)差。通常解決數(shù)據(jù)庫擴展性問題有兩種方式:向上擴展(Scale Up)和向外擴展(Scale Out)。面對海量數(shù)據(jù)處理,通過提升服務(wù)器性能進行Scale Up的方式在成本及處理能力方面均不能滿足要求,唯一可行的方法就是進行Scale Out。關(guān)系數(shù)據(jù)庫管理系統(tǒng)Scale Out的方法是通過對數(shù)據(jù)庫的垂直和水平切割將整個數(shù)據(jù)庫部署到一個集群上,這種方法的優(yōu)點在于可以采用關(guān)系數(shù)據(jù)庫管理系統(tǒng)(Relational Database Management System, RDBMS)這種成熟技術(shù),但缺點在于它是針對特定應(yīng)用的,應(yīng)用不同切割方法不一樣。

目前工業(yè)監(jiān)測系統(tǒng)中常采用實時數(shù)據(jù)庫(也屬于內(nèi)存數(shù)據(jù)庫)和內(nèi)存數(shù)據(jù)庫。然而,內(nèi)存數(shù)據(jù)庫難以勝任智能電網(wǎng)中對大規(guī)模設(shè)備的監(jiān)控,其原因主要包括以下幾個方面。

(1)內(nèi)存數(shù)據(jù)庫對事務(wù)一致性具有很高的要求,而根據(jù)CAP(Consistency, Availability, Partition Tolerance)理論,一致性的高要求必然會制約其可擴展性。

(2)由于擴展能力差,使得可用內(nèi)存容量有限,當數(shù)據(jù)超出內(nèi)存可以管理的范圍后,性能會急劇下降。

(3)內(nèi)存數(shù)據(jù)庫主要處理結(jié)構(gòu)化數(shù)據(jù),而智能電網(wǎng)系統(tǒng)中,既包括結(jié)構(gòu)化數(shù)據(jù),還包含大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。

1.4.3 云計算技術(shù)

大數(shù)據(jù)技術(shù)的需求是伴隨著云計算平臺的出現(xiàn)而出現(xiàn)的,故有必要介紹一下云計算技術(shù)。實際上目前云計算技術(shù)是大數(shù)據(jù)存儲與處理技術(shù)的重要組成部分。由于大數(shù)據(jù)的數(shù)據(jù)量和分布式的特點,使得傳統(tǒng)的數(shù)據(jù)管理技術(shù)難以勝任這種海量數(shù)據(jù)。

云計算的核心是海量數(shù)據(jù)存儲和數(shù)據(jù)并行處理技術(shù)。其核心思想包括分布式文件系統(tǒng)(Distributed File System, DFS)和MapReduce技術(shù),主要思路由Google公司提出。

DFS有著高容錯性(Fault-tolerant)的特點,并且是為部署在價格低廉的硬件上而設(shè)計的,而且它為應(yīng)用程序提供高吞吐量的數(shù)據(jù)訪問,適合有著超大數(shù)據(jù)集(Jarge Data Set)的程序。Hadoop提供了DFS的一種開源實現(xiàn)(Hadoop Distributed File System, HDFS),該分布式文件系統(tǒng)放寬了可移植操作系統(tǒng)接口(Portable Operating System Interface, POSIX)的要求,可以實現(xiàn)流的形式訪問(Streaming Access)文件系統(tǒng)中的數(shù)據(jù),并具有高可靠性、高可擴展性以及負載均衡等能力。

MapReduce是2004年由谷歌公司提出的一個用來進行并行處理和生成大數(shù)據(jù)集的并行編程模型。Hadoop包括了MapReduce的開源實現(xiàn),是引起關(guān)注的大數(shù)據(jù)處理技術(shù)之一。為使MapReduce并行編程模型更易使用,出現(xiàn)了多種大數(shù)據(jù)處理高級查詢語言,如Facebook的Hive、雅虎的Pig、谷歌的Sawzall等。這些高層查詢語言通過解析器將查詢語句解析為一系列MapReduce作業(yè),在分布式文件系統(tǒng)上并行執(zhí)行。與基本的MapReduce系統(tǒng)相比,高層查詢語言更適于用戶進行大規(guī)模數(shù)據(jù)的并行處理。MapReduce及高級查詢語言在應(yīng)用中也暴露了在實時性和效率方面的不足,因此有很多研究針對它們進行優(yōu)化。Cloudera發(fā)布了實時查詢開源項目Impala 1.0 beta版,實測表明,它比原來基于MapReduce的Hive SQL查詢速度提升3~90倍。Mahout是Apache開發(fā)的基于MapReduce的并行數(shù)據(jù)挖掘項目,相對傳統(tǒng)數(shù)據(jù)挖掘算法,能夠適應(yīng)大規(guī)模數(shù)據(jù)集,性能大幅提升。

1.4.4 云計算在智能電網(wǎng)中的應(yīng)用

智能電網(wǎng)中數(shù)據(jù)量最大的應(yīng)屬于電力設(shè)備狀態(tài)監(jiān)測數(shù)據(jù)。狀態(tài)監(jiān)測數(shù)據(jù)不僅包括在線的狀態(tài)監(jiān)測數(shù)據(jù)(時序數(shù)據(jù)和視頻),還包括設(shè)備基本信息、實驗數(shù)據(jù)、缺陷記錄等,數(shù)據(jù)量極大,可靠性要求高,實時性要求比企業(yè)管理數(shù)據(jù)要高。

云計算技術(shù)在國內(nèi)電力行業(yè)中的應(yīng)用研究還處于探索階段,研究內(nèi)容主要集中在系統(tǒng)構(gòu)想、實現(xiàn)思路和前景展望等方面。針對智能電網(wǎng)狀態(tài)監(jiān)測的特點,結(jié)合Hadoop,借助虛擬化技術(shù)、分布式冗余存儲以及基于列存儲的數(shù)據(jù)管理模式存儲和管理數(shù)據(jù),以保證電網(wǎng)海量狀態(tài)數(shù)據(jù)的可靠和高效管理,目前還只是一個框架。為了解決電力系統(tǒng)災(zāi)備中心資源利用率低、災(zāi)備業(yè)務(wù)流程復(fù)雜等一系列問題,設(shè)計了云計算資源管理平臺框架和部分模塊,其目標是實現(xiàn)電力企業(yè)ERP(Enterprise Resource Planning)數(shù)據(jù)的備份,但尚未實現(xiàn)。有學(xué)者初步設(shè)計了電力系統(tǒng)仿真云計算中心的系統(tǒng)架構(gòu)及其所屬的層次:基礎(chǔ)設(shè)施云、數(shù)據(jù)管理云、仿真計算云等。當前智能電網(wǎng)控制中心面臨的嚴峻的挑戰(zhàn),提出物聯(lián)網(wǎng)和云計算技術(shù)結(jié)合是新型控制中心的技術(shù)支撐。筆者課題組在實驗室中搭建了Hadoop云計算平臺,設(shè)計實現(xiàn)了基于Hadoop的電力設(shè)備狀態(tài)監(jiān)測存儲系統(tǒng),對動態(tài)時序數(shù)據(jù)、靜態(tài)數(shù)據(jù)以及視頻數(shù)據(jù)進行了存儲、關(guān)鍵字查詢與并行處理方面的研究,并對系統(tǒng)進行了測試,驗證了云計算平臺高可靠性、良好的可擴展性和數(shù)據(jù)并行訪問的性能優(yōu)勢。

在國外,云計算應(yīng)用目前已用于海量數(shù)據(jù)的存儲和簡單處理,已有實現(xiàn)并運行的實際系統(tǒng)。有學(xué)者分析了電力系統(tǒng)中不同用戶的實時查詢需求,設(shè)計了用于實時數(shù)據(jù)流管理的智能電網(wǎng)數(shù)據(jù)云模型,特別適合處理智能電網(wǎng)中產(chǎn)生的海量流式數(shù)據(jù),同時基于該模型實現(xiàn)了一個實時數(shù)據(jù)的智能測量與管理系統(tǒng)。Cloudera公司設(shè)計并實施了基于Hadoop平臺的智能電網(wǎng)在田納西河流域管理局(Tennessee Valley Authority, TVA)上的項目,幫助美國電網(wǎng)管理了數(shù)百TB的電源管理單元(Pressure Measurement Unit, PMU)數(shù)據(jù),突顯了Hadoop高可靠性以及價格低廉方面的優(yōu)勢;另外,TVA在該項目基礎(chǔ)上開發(fā)了superPDC,并通過openPDC項目將其開源,此工作將有利于推動量測數(shù)據(jù)的大規(guī)模分析處理,并可為電網(wǎng)其他時序數(shù)據(jù)的處理提供通用平臺。日本Kyushu電力公司使用Hadoop云計算平臺對海量的電力系統(tǒng)用戶消費數(shù)據(jù)進行快速并行分析,并在該平臺基礎(chǔ)上開發(fā)了各類分布式的批處理應(yīng)用軟件,提高了數(shù)據(jù)處理的速度和效率。

對云計算平臺應(yīng)用于智能電網(wǎng)進行了詳細的分析,得出的結(jié)論是:現(xiàn)有云計算平臺可以滿足智能電網(wǎng)監(jiān)控軟件運行的可靠性和可擴展性,但實時性、一致性、數(shù)據(jù)隱私和安全等方面的要求尚不能滿足,有待進一步研究。

主站蜘蛛池模板: 社旗县| 隆化县| 吴忠市| 民权县| 平定县| 兴化市| 岢岚县| 金塔县| 嘉祥县| 娱乐| 宁乡县| 神池县| 平阴县| 克拉玛依市| 嫩江县| 县级市| 循化| 桐柏县| 阿合奇县| 沂水县| 嘉祥县| 孟州市| 资阳市| 鄂温| 高密市| 莲花县| 塘沽区| 河东区| 金秀| 满城县| 民丰县| 永宁县| 象州县| 太仆寺旗| 宁陵县| 新津县| 苏州市| 张掖市| 郁南县| 晋江市| 津南区|