冰球突破豪华版传奇大奖视频

書名：工業大數據分析算法實戰
作者名：田春華
本章字數： 866字
更新時間： 2023-05-06 17:52:25

1.1.3 工業數據分析的特點

相對于服務業（如銀行、電信等）和互聯網的大數據，工業大數據具有很多特點[1，2]，例如，工業大數據具有多樣、多模態、高通量和強關聯等特性，具有很強的上下文信息（Context），這些特性對工業大數據平臺提出了新的技術要求，不僅需要高效的數據存儲優化，還需要能夠通過元數據、索引、查詢推理等進行高效便捷的數據讀取，實現多源異構數據的一體化管理。

對于工業分析來說，工業數據的特點主要有維度不完備、樣本量不足（且嚴重有偏）、數據蘊含大量上下文信息等特點，這些特點也造成了“擁有的數據非常多，但可用的數據很少”的窘境。

1）維度不完備，數據分析需要集成多個維度的信息，任何一個維度的缺失都會造成分析數據集的缺失。很多分析常常需要一個完整的工業過程，過程序列中的局部中斷，可能導致當前數據不能完整勾畫出真實的物理過程。另外，有些維度間缺乏精確關聯，例如在洗衣液罐裝生產線中，考慮到成本和生產節拍，不可能按袋追蹤，稱重的數據和罐裝工藝過程數據做不到一一對應，在對應時只能采用概率模型。

2）樣本量不足，且數據樣本通常嚴重有偏（biased）。多數工業系統被設計為具有高可靠性且嚴格受控的系統，絕大多數時間都在穩定運行，異常工況相對稀缺（對于數據分析來說具有“高價值”）。很多數據在歷史上沒有被標記，對歷史數據的大規模重新標記通常也不可行（工作量大，對標記人員的要求高）。還有一些工業場景要求捕獲故障/異常瞬間的高頻細微狀況，這樣才能還原和分析故障發生的原因。最后，設備、傳感器、工藝和環境也是在不斷變化的，歷史數據的有效性也會隨著時間而流逝。這些都造成了工業數據分析時的樣本量不足。

3）數據蘊含大量上下文信息。工業是一個強機理、高知識密度的技術領域，很多監測數據僅是精心設計下系統運行的部分表征。很多數據間的關系都可以用機理去解釋（不需要挖掘），領域知識也提供了很多有用的特征變量（如齒輪箱振動的倒譜），這些隱形信息都大大縮小了數據分析的參數搜索空間。但不幸的是，并不是所有的專家經驗或領域知識都是正確的，數據分析仍然需要保持“謹慎的相信”，但不是迷信。

官术网_书友最值得收藏!

工業大數據分析算法實戰

1.1.3 工業數據分析的特點