官术网_书友最值得收藏!

1.1.4 數(shù)據(jù)分析的典型手段

上述工業(yè)數(shù)據(jù)分析的特點也決定了技術(shù)手段的不同,工業(yè)數(shù)據(jù)分析常常需要融合多類模型,而不僅僅是統(tǒng)計學(xué)習(xí)算法。

刻畫物理世界有3大類模型,如圖1-3所示。認(rèn)知模型提供了一些概念和理念層面的指導(dǎo),是物理世界在概念和結(jié)構(gòu)的抽象;理論模型中,唯象模型是從輸入—輸出關(guān)系上去逼近物理過程[3] ,主要包括統(tǒng)計模型(包括統(tǒng)計描述與統(tǒng)計學(xué)習(xí),本節(jié)將統(tǒng)計模型、分析模型、數(shù)據(jù)挖掘、機器學(xué)習(xí)等提法等同,不做嚴(yán)格區(qū)分)和模擬仿真,機理模型是基于公理體系和簡化假設(shè)等邏輯體系下的模型;經(jīng)驗?zāi)P褪窃趯嵺`中,對過程和決策的經(jīng)驗性總結(jié),包括專家規(guī)則和經(jīng)驗公式。當(dāng)然,不同類別模型也是相互轉(zhuǎn)化的,例如,通常認(rèn)為開普勒三定律是唯象模型(在廣泛被證明前也可以認(rèn)為是經(jīng)驗公式),但一旦形成相對完善的公理體系,萬有引力定律就成了機理模型。

圖1-3 刻畫物理世界的3大類模型

在行業(yè)應(yīng)用中采用的模型大多是形式化(或部分形式化)模型,所以下面重點討論理論模型和經(jīng)驗?zāi)P?,并且不刻意區(qū)分專家規(guī)則與經(jīng)驗公式(以專家規(guī)則為代表討論)。不同類別模型的特點和適用場景見表1-2,簡單來說,機理模型推演能力強,但不夠精準(zhǔn)(很多理想化假設(shè)),統(tǒng)計模型自適應(yīng)能力強,但不充分(概率意義上的外推),仿真模型對極端情形檢驗?zāi)芰姡▽ο到y(tǒng)和策略設(shè)計很有用),但通常不解決日常運行情形,專家規(guī)則實用,但不完備(有很多反例,邏輯自洽性差)。因此,在解決問題時,需要根據(jù)實際問題的情形選擇模型的類型,或者采用多種類型的融合。下面重點討論統(tǒng)計模型及與其他模型的融合。

表1-2 各類模型的特點與適用場景

1.統(tǒng)計模型的應(yīng)用范式

一般來說,大數(shù)據(jù)模型的作用與機理復(fù)雜度密切相關(guān)。本節(jié)從產(chǎn)品相似度和機理復(fù)雜度兩個維度出發(fā),將分析算法應(yīng)用總結(jié)為6個范式,如圖1-4所示,在不同的組合情形下,統(tǒng)計模型可以發(fā)揮的作用不同。

圖1-4 統(tǒng)計模型在不同情形的作用

1)從工業(yè)產(chǎn)品的相似度來看,可分為大量相似產(chǎn)品(如風(fēng)力發(fā)電機)和少量定制化產(chǎn)品(如就地建設(shè)的化工反應(yīng)塔)。對于大量相似產(chǎn)品,在數(shù)據(jù)分析時可以充分利用產(chǎn)品間的交叉信息;而對于少量定制化產(chǎn)品,應(yīng)深度挖掘其時間維度的信息。

2)從產(chǎn)品機理的復(fù)雜度來看,可分為無須了解內(nèi)部機理的產(chǎn)品(如電子消費品,通常不需要深入元器件內(nèi)部分析)、簡單明確機理產(chǎn)品(如風(fēng)力發(fā)電機)、復(fù)雜機理產(chǎn)品(如鼓風(fēng)機、化工廠)。當(dāng)工業(yè)大數(shù)據(jù)分析被應(yīng)用到復(fù)雜機理產(chǎn)品時,應(yīng)更加注重機理模型和專家經(jīng)驗的融合。

2.統(tǒng)計模型與機理模型的融合

在不同場景下,機理模型對物理過程描述的精度不同,因而對其他模型(包括分析模型)的需求也不同,不同工業(yè)場景下數(shù)據(jù)與模型的特性如圖1-5所示。微觀機理模型通常無法直接用到中觀決策,如腐蝕電化學(xué)模型無法直接用到地下管道的季度預(yù)防性維修計劃。很多機理模型在環(huán)境(如充分光滑、沒有阻力)、模型(如集總參數(shù)、剛體、模型參數(shù)可以相對精準(zhǔn)獲得)、動力學(xué)形態(tài)(如不存在湍流)、初始狀態(tài)(可測且測量成本可接受)等方面都有一定的前提假設(shè)或合理簡化,在實際過程中就需要用數(shù)據(jù)來檢驗其合理性,或與分析模型融合,進(jìn)一步提高模型的適用性。

圖1-5 不同工業(yè)場景下機理模型的可信度

分析模型與機理模型融合的范式有4種,如圖1-6所示。

1)分析模型為機理模型做模型校準(zhǔn)(Model Calibration),提供參數(shù)的點估計或分布估計,如Kalman濾波。

2)分析模型為機理模型做后處理(Post-processing)。例如,利用統(tǒng)計方法對WRF(Weather Research and Forecasting Model)等天氣預(yù)報模型的結(jié)果進(jìn)行修正;或者利用統(tǒng)計方法綜合多個機理模型,提高預(yù)測的穩(wěn)定性。

3)機理模型的部分結(jié)果作為分析模型的特征(feature)。例如,在風(fēng)機結(jié)冰預(yù)測中,計算出風(fēng)機的理論功率、理論轉(zhuǎn)速等并將其作為統(tǒng)計分析模型的重要特征。

4)分析模型與機理模型做融合(ensemble)。例如,在空氣質(zhì)量預(yù)測中,WRF-CHEM、CMAQ(Community Multiscale Air Quality)等機理模型可及時捕獲空氣質(zhì)量的全局動態(tài)演化過程,而統(tǒng)計模型可對空氣質(zhì)量的局部穩(wěn)態(tài)周期模式有較高精度的刻畫。二者的融合可以發(fā)揮兩類模型各自的優(yōu)勢。

圖1-6 分析模型與機理模型融合的4種范式

3.統(tǒng)計模型與專家規(guī)則的融合

在設(shè)備異常預(yù)警等很多工業(yè)數(shù)據(jù)分析中,大量歷史數(shù)據(jù)沒有標(biāo)記,領(lǐng)域?qū)<彝ǔ?梢蕴峁┥倭康漠惓颖?。這時候除了無監(jiān)督學(xué)習(xí)(包括異常樣本的相似度匹配)方式外,就是采用專家規(guī)則與統(tǒng)計模型融合的方式。

專家規(guī)則通常不夠完備,專家規(guī)則中很多參數(shù)和閾值通常不夠精準(zhǔn),大數(shù)據(jù)平臺可以為專家規(guī)則提供一個迭代式驗證平臺,數(shù)據(jù)分析師將當(dāng)前版本的專家規(guī)則形式化,用大量歷史數(shù)據(jù)運行,領(lǐng)域?qū)<覍﹃P(guān)鍵結(jié)果(例如預(yù)測為故障狀態(tài))進(jìn)行研究,完善專家規(guī)則邏輯,通過這樣多次迭代運行,通??梢垣@得一個相對可靠的專家規(guī)則。另外,也可以采用主動學(xué)習(xí)(Active Learning)[6] 策略,統(tǒng)計學(xué)習(xí)模型可以挑一些易混淆的樣本,讓領(lǐng)域?qū)<胰?biāo)記。這些將在第10章討論,這里不再贅述。

主站蜘蛛池模板: 务川| 洮南市| 九台市| 韩城市| 新乐市| 安福县| 德州市| 泗洪县| 五河县| 金平| 昭苏县| 隆安县| 江西省| 哈尔滨市| 利辛县| 敦化市| 报价| 英吉沙县| 广东省| 通辽市| 大冶市| 兴和县| 陆河县| 集贤县| 莎车县| 上思县| 林周县| 镇远县| 松阳县| 弥渡县| 南投县| 德兴市| 越西县| 清水县| 庄河市| 澄迈县| 山阴县| 普格县| 宜君县| 布尔津县| 正蓝旗|