- 智能電網大數據云計算技術研究
- 周國亮 宋亞奇 朱永利 王桂蘭 薩初日拉
- 4924字
- 2021-04-02 22:27:03
1.5 智能電網大數據機遇與挑戰
1.5.1 大數據傳輸及存儲技術
隨著智能電網建設的逐步推進,在電力系統各個環節的運行數據及設備狀態在線監測數據被記錄下來,由此產生的海量數據傳輸和存儲問題不僅對監控裝置造成極大的負擔,而且也制約著電力系統智能化的跨越式發展。
通過數據壓縮可以有效減少網絡數據傳輸量,提高存儲效率。因此數據壓縮技術獲得了廣泛關注,楊奇遜院士探討了基于提升格式的故障暫態過程信號實時數據的壓縮和重構算法,利用線性整數變換小波雙正交濾波器組合哈夫曼編碼方法對電力系統的實時數據進行壓縮和解壓縮。針對時序數據存在大量重復的問題,為減小存儲空間,壓縮算法是一種可行的選擇,研究了基于二維提升小波的火電廠周期性數據壓縮算法和電力系統穩態數據參數化壓縮算法。在輸電線路狀態監測系統中,為了發現絕緣子放電,泄漏電流的采樣頻率比較高,數據量大。目前該類系統普遍采用無線通信方式,網絡帶寬有限,因此需要進行數據壓縮。利用自適應多集樹集合分裂排序(Set Partitioning in Hierarchical Trees, SPIHT)算法可以根據小波系數集合的顯著性自適應地進行集合劃分,尤其適合壓縮泄漏電流這類高噪聲信號。數據壓縮一方面減少了存儲空間;另一方面壓縮和解壓縮造成大量中央處理器(Central Processing Unit, CPU)資源的耗費。在數據到達監控中心后需要對數據進行解壓縮,需要合適的計算與存儲平臺。
在數據存儲方面,智能電網中的海量數據可以利用分布式文件系統來存儲,比如利用Hadoop的HDFS等存儲系統,然而這些系統雖然可以存儲大數據,但很難滿足電力系統的實時性要求。因此必須對系統中的大數據根據性能和分析要求進行分類存儲:對性能要求非常高的實時數據采用實時數據庫系統;對核心業務數據使用傳統的并行數據倉庫系統;對大量的歷史和非結構化數據采用分布式文件系統。本節提出為智能電網中的大數據構建多級存儲系統,如圖1-1所示。需要指出的是,鑒于目前云平臺接收智能電網監測數據的實時性不能保證,可以在圖1-1的數據接入與信息集成前面設置若干前置機,負責實時接收通信網中送來的報警信息或監測數據,并在云平臺不能響應時負責暫存。

圖1-1 智能電網大數據多級存儲系統
另外,智能電網中的數據格式與傳統商業數據具有很大的不同,擁有自己的特點。比如在故障錄波及在輸變電設備狀態監測中,波形數據較多,而波形數據與傳統商業數據具有本質的不同,具有數據生成速度快、體量大和處理計算復雜度高等特點。因此需要研究面向智能電網大數據存儲的格式,從而有利于后續的數據分析和計算。
智能電網環境下各類數據異構,不能用已有的簡單數據結構描述,而計算機算法在處理復雜結構數據方面相對低效,但處理同質的數據則非常高效。因此,如何將數據組織成合理的同質結構,是大數據存儲處理中的一個重要問題。另外,智能電網中存在大量的非結構化和半結構化數據,如何將這些數據轉化為一個結構化的格式,是一項重大挑戰。
1.5.2 實時數據處理技術
1.數據處理時效性
對大數據而言,數據處理速度十分重要。一般情況下,數據規模越大,分析處理的時間就會越長。傳統的數據存儲方案是為一定大小的數據量而設計的,在其設計范圍內處理速度可能非常快,但不能適應大數據的要求。未來智能電網環境下,從發電環節、輸變電環節,到用電環節,都需要實時數據處理。目前的云計算系統可以提供快速的服務,但有可能會受到短暫的網絡擁塞,甚至是單臺服務器故障的影響,而不能保證響應時間。
基于內存的數據庫越來越受到關注。內存數據庫就是將數據放在內存中直接操作的數據庫。相對于磁盤,內存的數據讀寫速度要高出幾個數量級,將數據保存在內存中相比從磁盤上訪問能夠極大地提高應用的性能。目前,電力系統中已經開始使用內存數據庫,以提高實時性。例如,針對去年我國部分地區出現用電荒,而另一部分地區則呈現電能過剩的狀態,SAP(Systems Application and Products)推出了基于HANA(High-performance Analytic Appliance)內存數據庫的智能電表分析解決方案,希望能夠將智能電網涉及的環節和電力大用戶的數據進行集成和整合分析,以實現各地電能消費情況的分析,以做好相應的預防措施。
在大數據集中,進行關鍵字的查詢也是一個重要的挑戰。通過對整個數據集進行掃描來找到符合要求的記錄的方法顯然是不可行的,即使通過類似MapReduce這樣的并行處理技術加快掃描,也不是很合理。而通過事先為數據建立索引結構幫助查找是一種比較快速同時節省系統資源的方法。目前一般的索引結構的設計僅支持一些簡單的數據類型,大數據則要求為復雜結構的數據建立合適的索引結構,這也是一個大數據的巨大的挑戰。例如,物聯網采集的多維數據,其數據量不斷增長,同時對查詢時限有要求,需要不斷更新索引結構,索引的設計就非常具有挑戰性。下面分別從發電、輸變電和用電環節分析智能電網大數據在數據處理方面帶來的挑戰。
2.發電
發電企業屬于連續工業生產企業,它的特點是生產過程連續、自動化程度高,要求全過程的實時監控、高速的實時數據處理、長期的歷史數據存儲以及生產信息的集成與共享。有研究表明,正常運行的SCADA系統當接收到監測數據延時如果超過50ms,就會導致錯誤的控制策略;還有研究表明,SCADA系統在使用Internet環境下最普遍的TCP/IP協議時出現故障,主要原因是TCP協議在進行流量控制和數據糾錯,而造成數據延遲。未來的智能電網解決方案將需要實時響應,即使出現節點故障的情況。目前的關系數據庫系統和云計算系統被設計為是處理永久、穩定的數據。關系數據庫強調維護數據的完整性、一致性;云計算系統強調可靠性和可擴展性,但很難顧及有關數據及其處理的定時限制,不能滿足工業生產管理實時應用的需要。
3.輸變電環節
狀態監測對數據存儲與處理平臺的性能或實時性具有較高的要求,而云計算技術雖然可以有效地處理大數據,但需要進一步提升云平臺對海量監測數據的存取性能,以滿足實時性的要求。以往的大規模停電事故,最初是由一些環境因素引起的,比如大風導致的線路跳閘等。現有SCADA系統的監控范圍僅限于系統的主參數,對構成系統的各重要設備的健康狀況的信息缺失,致使運行人員在事故面前難以做出正確的處理。未來智能電網要求具有故障自愈功能,其SCADA系統須擁有全網的監測數據,需要將電力設備的狀態數據納入其中,這對平臺的實時處理提出了更高的要求。
新型綠色能源發電功率的不穩定造成電網的波動,對整個電網調度形成很大的壓力。目前電網調度與控制模型不能夠處理這種大量的小型發電系統產生的波動和不可預知的行為。最新的研究表明,為支持這種情況,需要創建一種新型的電網狀態監控系統,能夠更加細粒度地跟蹤電網實時狀態。因此未來的SCADA系統需要實時處理比目前多幾個數量級的監控數據。
4.用電
未來智能電網環境下,家庭可能配備多種電能、電量監測設備,用以實現低成本的用電,并與電網的負載相匹配。例如,電熱水器可能會選擇在夜間這種用電量低谷時段運行;空調會根據用戶舒適度、電價以及電網負荷等參數實時自動調整。某種程度上,可以認為SCADA系統進入了普通家庭,用電環節的實時數據處理變得越來越重要。
1.5.3 異構多數據源處理技術
1.異構信息整合
未來智能電網要求貫通發電、輸電、變電、配電、用電、調度等多個環節,實現信息的全面采集、流暢傳輸和高效處理,支撐電力流、信息流、業務流的高度一體化。因此,首要功能是實現大規模多源異構信息的整合,為智能電網提供資源集約化配置的數據中心。針對海量異構數據,如何構建一個模型對其進行規范表達,如何基于該模型實現數據融合,以及對其進行有效的存儲和高效查詢是急需解決的問題。
電網各信息系統大多是基于本業務或本部門的需求,存在不同的平臺、應用系統和數據格式,導致信息與資源分散,異構性嚴重,橫向不能共享,上下級間縱向貫通困難,例如:電力系統中存在監控、能量管理、配電管理、市場運營等各類信息系統,大多處于相互獨立、數據信息不能共享的狀態。使用云平臺實現各獨立系統的集成,可實現這些分散孤立系統之間的信息互通。
另外,智能電網的基礎設施規模龐大,數量眾多且分布在不同地點。例如:國家電網公司的信息化平臺在公司總部與各個網省公司建立2級數據中心,實現公司總部、網省公司、地市縣公司的3層應用。如何有效管理這些基礎設施、減少數據中心的運營成本是一個巨大的挑戰。
2.各類電網數據的高效管理
在智能電網異構多源信息融合和管理中,建立類似IEC61850或IEC61970的信息互操作模型是很有必要的。由于智能電網中的數據類型比IEC61850所涉及的類型要多,所以應用多層知識結構和語義的方法、建立面向領域的分析模型與基于語義的服務模型是一種可選的方法。綜合運用統計學習、支持向量機、相關向量機和關聯規則挖掘等理論,研究異構數據融合與挖掘的集成方案以及實時挖掘算法。由于設備狀態的劣化是一個由量變到質變的過程,像多年積累的油色譜這樣的時序數據的挖掘更有意義,目前這種大數據挖掘雖有一些研究成果,但實用化程度不高。
1.5.4 大數據可視化分析技術
面對海量的智能電網數據,如何在有限的屏幕空間下,以一種直觀、容易理解的方式展現給用戶,是一項非常有挑戰性的工作。可視化方法已被證明為一種解決大規模數據分析的有效方法,并在實踐中得到廣泛應用。智能電網各類應用產生的大規模數據集,其中包含高精度、高分辨率數據、時變數據和多變量數據等。一個典型的數據集可達TB數量集。如何從這些龐大復雜的數據中快速而有效地提取有用的信息,成為智能電網應用中的一個關鍵技術難點。可視化通過一系列復雜的算法將數據繪制成高精度、高分辨率的圖片,并提供交互工具,有效利用人的視覺系統,并允許實時改變數據處理和算法參數,對數據進行觀察和定性及定量分析。
電力企業將電力科學可視化引入電力工業生產和管理領域,借助可視化的圖形展示手段,為電力系統的運行監視、控制、調度、分析、規劃等提供有力保障。隨著電力信息日益豐富,電力大數據需要創新原有的可視化手段,通過可視化在更廣闊的范圍挖掘和展示電力數據的價值。這方面的挑戰主要包括可視化算法的可擴展性、并行圖像合成算法、重要信息的提取和顯示等方面。
1.5.5 流式計算技術
隨著業務的增長,業界對大數據的速度(Velocity)維度越來越關注,過去需要幾天或者幾個小時才能回答的問題現在期望在幾分鐘、幾秒甚至毫秒內得到解決。實時流數據存儲和處理技術將會越來越多地被研究和開發。實時流式大數據的處理在很多方面和分布式系統在原理上有很多相似之處,然而也有其獨特需求。流式計算是一種高實時性的計算模式,需要對一定時間窗口內應用系統產生的新數據完成實時的計算處理,避免造成數據堆積和丟失。很多行業的大數據應用,如電信、電力、道路監控等行業應用,以及互聯網行業的訪問日志處理,都同時具有高流量的流式數據和大量積累的歷史數據,因而在提供批處理數據模式的同時,系統還需要能具備高實時性的流式計算能力。流式計算的一個特點是數據運動、運算不動,不同的運算節點常常綁定在不同的服務器上。
Hadoop MapReduce為大數據處理提供了一個很好的平臺。然而,由于MapReduce設計之初是為大數據線下批處理而設計的,隨著很多需要高響應性能的大數據查詢分析計算問題的出現,MapReduce在計算性能上往往難以滿足要求。隨著內存價格的不斷下降以及服務器可配置的內存容量的不斷提高,用內存計算完成高速的大數據處理已經成為大數據計算的一個重要發展趨勢。Spark則是分布內存計算的一個典型的系統,SAP公司的Hana則是一個全內存式的分布式數據庫系統。但目前尚未查到內存計算技術在輸變電設備監測系統中的應用報道。
數據流技術在電力系統中應用研究起步晚,成果相對少。法國電力公司針對電力AMM(Automatic Metering Management)產生的大量用電數據流(可能以秒計量)進行連續查詢,如按表或按城市查詢最近5分鐘用電量情況、查詢午夜到早8點用電量超過正常值10%的用戶,傳統數據庫管理系統無法滿足對數據流的這些連續聚集查詢需求,他們采用兩個著名的數據流管理系統原型(STREAM和TelegraphCQ)進行了試驗測試,試驗結果發現這兩個系統都無法完全滿足需求,他們還要繼續尋找更合適的其他系統或跟蹤TelegraphCQ的更高版本或使用其他的商業系統。土耳其的Power Quality Group提出了針對電能質量數據監測的數據流系統框架PQStream,實時采集分析電能質量參數,且準備引入數據挖掘內容。葡萄牙的波爾圖大學經濟學院提出了針對電力市場買售電的負荷預測框架,根據負荷數據的實時變化及時做出決策。根據調查發現,未見國外研究機構根據輸變電設備監測流式大數據進行分析并故障診斷的相關研究報道。