官术网_书友最值得收藏!

1.1.3 工業數據分析的特點

相對于服務業(如銀行、電信等)和互聯網的大數據,工業大數據具有很多特點[1,2],例如,工業大數據具有多樣、多模態、高通量和強關聯等特性,具有很強的上下文信息(Context),這些特性對工業大數據平臺提出了新的技術要求,不僅需要高效的數據存儲優化,還需要能夠通過元數據、索引、查詢推理等進行高效便捷的數據讀取,實現多源異構數據的一體化管理。

對于工業分析來說,工業數據的特點主要有維度不完備、樣本量不足(且嚴重有偏)、數據蘊含大量上下文信息等特點,這些特點也造成了“擁有的數據非常多,但可用的數據很少”的窘境。

1)維度不完備,數據分析需要集成多個維度的信息,任何一個維度的缺失都會造成分析數據集的缺失。很多分析常常需要一個完整的工業過程,過程序列中的局部中斷,可能導致當前數據不能完整勾畫出真實的物理過程。另外,有些維度間缺乏精確關聯,例如在洗衣液罐裝生產線中,考慮到成本和生產節拍,不可能按袋追蹤,稱重的數據和罐裝工藝過程數據做不到一一對應,在對應時只能采用概率模型。

2)樣本量不足,且數據樣本通常嚴重有偏(biased)。多數工業系統被設計為具有高可靠性且嚴格受控的系統,絕大多數時間都在穩定運行,異常工況相對稀缺(對于數據分析來說具有“高價值”)。很多數據在歷史上沒有被標記,對歷史數據的大規模重新標記通常也不可行(工作量大,對標記人員的要求高)。還有一些工業場景要求捕獲故障/異常瞬間的高頻細微狀況,這樣才能還原和分析故障發生的原因。最后,設備、傳感器、工藝和環境也是在不斷變化的,歷史數據的有效性也會隨著時間而流逝。這些都造成了工業數據分析時的樣本量不足。

3)數據蘊含大量上下文信息。工業是一個強機理、高知識密度的技術領域,很多監測數據僅是精心設計下系統運行的部分表征。很多數據間的關系都可以用機理去解釋(不需要挖掘),領域知識也提供了很多有用的特征變量(如齒輪箱振動的倒譜),這些隱形信息都大大縮小了數據分析的參數搜索空間。但不幸的是,并不是所有的專家經驗或領域知識都是正確的,數據分析仍然需要保持“謹慎的相信”,但不是迷信。

主站蜘蛛池模板: 灌阳县| 陇南市| 景泰县| 中山市| 博湖县| 鹰潭市| 清原| 松阳县| 广丰县| 卓尼县| 富蕴县| 莫力| 开原市| 徐州市| 卢氏县| 鹿邑县| 中牟县| 镇远县| 石门县| 西乌珠穆沁旗| 瓦房店市| 南召县| 安泽县| 吴忠市| 平南县| 崇明县| 咸宁市| 富宁县| 镶黄旗| 隆回县| 康乐县| 广灵县| 禄劝| 广州市| 松原市| 桂东县| 玛多县| 上饶县| 天门市| 扶风县| 岢岚县|