- 工業大數據分析算法實戰
- 田春華
- 866字
- 2023-05-06 17:52:25
1.1.3 工業數據分析的特點
相對于服務業(如銀行、電信等)和互聯網的大數據,工業大數據具有很多特點[1,2],例如,工業大數據具有多樣、多模態、高通量和強關聯等特性,具有很強的上下文信息(Context),這些特性對工業大數據平臺提出了新的技術要求,不僅需要高效的數據存儲優化,還需要能夠通過元數據、索引、查詢推理等進行高效便捷的數據讀取,實現多源異構數據的一體化管理。
對于工業分析來說,工業數據的特點主要有維度不完備、樣本量不足(且嚴重有偏)、數據蘊含大量上下文信息等特點,這些特點也造成了“擁有的數據非常多,但可用的數據很少”的窘境。
1)維度不完備,數據分析需要集成多個維度的信息,任何一個維度的缺失都會造成分析數據集的缺失。很多分析常常需要一個完整的工業過程,過程序列中的局部中斷,可能導致當前數據不能完整勾畫出真實的物理過程。另外,有些維度間缺乏精確關聯,例如在洗衣液罐裝生產線中,考慮到成本和生產節拍,不可能按袋追蹤,稱重的數據和罐裝工藝過程數據做不到一一對應,在對應時只能采用概率模型。
2)樣本量不足,且數據樣本通常嚴重有偏(biased)。多數工業系統被設計為具有高可靠性且嚴格受控的系統,絕大多數時間都在穩定運行,異常工況相對稀缺(對于數據分析來說具有“高價值”)。很多數據在歷史上沒有被標記,對歷史數據的大規模重新標記通常也不可行(工作量大,對標記人員的要求高)。還有一些工業場景要求捕獲故障/異常瞬間的高頻細微狀況,這樣才能還原和分析故障發生的原因。最后,設備、傳感器、工藝和環境也是在不斷變化的,歷史數據的有效性也會隨著時間而流逝。這些都造成了工業數據分析時的樣本量不足。
3)數據蘊含大量上下文信息。工業是一個強機理、高知識密度的技術領域,很多監測數據僅是精心設計下系統運行的部分表征。很多數據間的關系都可以用機理去解釋(不需要挖掘),領域知識也提供了很多有用的特征變量(如齒輪箱振動的倒譜),這些隱形信息都大大縮小了數據分析的參數搜索空間。但不幸的是,并不是所有的專家經驗或領域知識都是正確的,數據分析仍然需要保持“謹慎的相信”,但不是迷信。
- LibGDX Game Development Essentials
- PyTorch深度學習實戰:從新手小白到數據科學家
- 輕松學大數據挖掘:算法、場景與數據產品
- 數據之巔:數據的本質與未來
- Test-Driven Development with Mockito
- 大數據:從概念到運營
- Sybase數據庫在UNIX、Windows上的實施和管理
- INSTANT Cytoscape Complex Network Analysis How-to
- 數亦有道:Python數據科學指南
- 智能數據分析:入門、實戰與平臺構建
- 數據科學工程實踐:用戶行為分析與建模、A/B實驗、SQLFlow
- 大數據精準挖掘
- Unreal Engine Virtual Reality Quick Start Guide
- 數據挖掘與數據化運營實戰:思路、方法、技巧與應用
- 量化投資:交易模型開發與數據挖掘