官术网_书友最值得收藏!

1.1 流處理欠佳的后果

誰需要和流數(shù)據(jù)打交道呢?首先映入腦海的是從事傳感器測量和金融交易的工作人員。對于他們來說,流處理非常有用。但是流數(shù)據(jù)來源非常廣泛,兩個常見的例子是:網(wǎng)站獲得的能夠反映用戶行為的點擊流數(shù)據(jù),以及私有數(shù)據(jù)中心的機(jī)器日志。事實上,流數(shù)據(jù)來源無處不在,但是從連續(xù)事件中獲得數(shù)據(jù)并不意味著可以在批量計算中使用這些數(shù)據(jù)。如今,處理大規(guī)模流數(shù)據(jù)的新技術(shù)正在改變這一狀況。

如果說處理大規(guī)模流數(shù)據(jù)是一個歷史性難題,我們?yōu)槭裁催€要不厭其煩地嘗試打造更好的流處理系統(tǒng)呢?在介紹支持流處理的新架構(gòu)及新技術(shù)之前,我們先來談?wù)劜荒芎芎玫靥幚砹鲾?shù)據(jù)會有什么后果。

1.1.1 零售業(yè)和市場營銷

在現(xiàn)代零售業(yè)中,網(wǎng)站點擊量就代表了銷量。網(wǎng)站獲得的點擊數(shù)據(jù)可能是大量、連續(xù)、不均勻的。用以往的技術(shù)很難處理好如此規(guī)模的數(shù)據(jù)。僅是構(gòu)建批量系統(tǒng)處理這些數(shù)據(jù)流注1:在本書中,“數(shù)據(jù)流”是指由連續(xù)數(shù)據(jù)組成的流;“流數(shù)據(jù)”是指數(shù)據(jù)流中的數(shù)據(jù)。</br>——譯者注就很有挑戰(zhàn)性:結(jié)果很可能是需要一個龐大且復(fù)雜的系統(tǒng)。并且,傳統(tǒng)的做法還會帶來數(shù)據(jù)丟失、延遲、錯誤的聚合結(jié)果等問題。這樣的結(jié)果怎能對商業(yè)領(lǐng)域有所幫助呢?

假設(shè)你正在向首席執(zhí)行官匯報上一季度的銷售數(shù)據(jù),你肯定不想事后因為使用了不準(zhǔn)確的數(shù)據(jù)而不得不向首席執(zhí)行官更正匯報結(jié)果。如果不能良好地處理點擊數(shù)據(jù),你很可能對網(wǎng)站點擊量進(jìn)行不準(zhǔn)確的計算,這將導(dǎo)致廣告投放報價和業(yè)績數(shù)字不準(zhǔn)確。

航空旅客服務(wù)業(yè)面臨同樣的挑戰(zhàn):航空公司需要快速、準(zhǔn)確地處理從各種渠道獲得的大量數(shù)據(jù)。例如,當(dāng)為一名旅客辦理登機(jī)手續(xù)時,需要對該旅客的機(jī)票預(yù)訂數(shù)據(jù)進(jìn)行核對,還需要核對行李處理信息、航班狀態(tài)信息和賬單信息。如果沒有強(qiáng)大的技術(shù)來支持流處理,這種規(guī)模的數(shù)據(jù)是很難不出錯的。近幾年,美國四大航空公司中有三家都出現(xiàn)了大面積的服務(wù)中斷,這幾次故障都可以歸咎于大規(guī)模實時數(shù)據(jù)處理失敗。

當(dāng)然,很多相關(guān)問題(如怎樣避免重復(fù)預(yù)訂酒店或演唱會門票),一般都能夠通過有效的數(shù)據(jù)庫操作來解決,但是這種操作相當(dāng)費錢,也費精力。尤其當(dāng)數(shù)據(jù)量增加時,成本會飆升,并且在某些情況下,數(shù)據(jù)庫的反應(yīng)速度會變得特別慢。由于缺乏靈活性,開發(fā)速度受到影響,項目在龐大又復(fù)雜或者不斷發(fā)生變化的系統(tǒng)中進(jìn)展緩慢。想要在大型系統(tǒng)中處理流數(shù)據(jù),并且在保持一致性的同時有效地控制成本,難度非常大。

幸運的是,現(xiàn)代的流處理器經(jīng)常可以用新的方式解決這些問題,這使得實時處理大規(guī)模數(shù)據(jù)的成本更低。流處理還激發(fā)了新的嘗試,比如構(gòu)建一個系統(tǒng),該系統(tǒng)能夠基于顧客當(dāng)下購買的商品實時給出相關(guān)的建議,看看他們是否還需要買一些別的商品。這不代表流處理器替代了數(shù)據(jù)庫(遠(yuǎn)遠(yuǎn)不能替代),而是說在數(shù)據(jù)庫處理不好時,流處理器提供了更好的解決方案。這樣做也使數(shù)據(jù)庫得以解脫,不用再參與對當(dāng)前業(yè)務(wù)狀態(tài)的實時分析。第2章在介紹流處理架構(gòu)時將對這一轉(zhuǎn)變做更深入的講解。

1.1.2 物聯(lián)網(wǎng)

物聯(lián)網(wǎng)是流數(shù)據(jù)被普遍應(yīng)用的領(lǐng)域。在物聯(lián)網(wǎng)中,低延遲的數(shù)據(jù)傳輸和處理,以及準(zhǔn)確的數(shù)據(jù)分析通常很關(guān)鍵。各類儀器中的傳感器頻繁地獲得測量數(shù)據(jù),并將它們以流的形式傳輸至數(shù)據(jù)中心。在數(shù)據(jù)中心內(nèi),實時或者接近實時的應(yīng)用程序?qū)⒏嘛@示板,運行機(jī)器學(xué)習(xí)模型,發(fā)布警告,并就許多不同的服務(wù)項目提供反饋。

交通運輸業(yè)也體現(xiàn)了流處理的重要性。舉例來說,先進(jìn)的列車系統(tǒng)依靠的是傳感器測量數(shù)據(jù),這些數(shù)據(jù)從軌道傳至列車,再從列車傳至沿途的傳感器;與此同時,報告也被發(fā)送回控制中心。測量數(shù)據(jù)包括列車的速度和位置,以及軌道周邊的狀況。如果流數(shù)據(jù)沒有被正確處理,調(diào)整意見和警告就不能相應(yīng)產(chǎn)生,從而也就不能通過對危險狀況做出反應(yīng)來避免事故發(fā)生。

另一個例子是“智能”汽車,或稱聯(lián)網(wǎng)汽車,它們通過移動網(wǎng)絡(luò)將數(shù)據(jù)傳輸回制造商。在有些國家(北歐國家、法國和英國,美國則剛開始),聯(lián)網(wǎng)汽車甚至可以將信息傳給保險公司;如果是賽車,信息還可以通過射頻鏈路傳送至維修站進(jìn)行分析。此外,一些智能手機(jī)應(yīng)用程序還支持?jǐn)?shù)百萬司機(jī)共享實時路況信息。

圖1-1:許多情況都需要考慮數(shù)據(jù)的時效性,包括使用物聯(lián)網(wǎng)數(shù)據(jù)的交通運輸業(yè)。供數(shù)百萬司機(jī)共享的實時路況信息依靠的是對流數(shù)據(jù)及時地進(jìn)行合理和準(zhǔn)確的分析(圖片來源:?2016 弗里德曼)

物聯(lián)網(wǎng)對公用事業(yè)也有影響。相關(guān)公司已經(jīng)開始安裝智能計量表,以替換每個月需要人工讀數(shù)的舊表。智能計量表可以定期將用電量反饋給公司(例如每15分鐘一次)。有些公司正在嘗試每30秒就進(jìn)行一次測量。使用智能計量表的這一轉(zhuǎn)變帶來了大量的流數(shù)據(jù),同時也獲得了大量的潛在收益。其中一個好處就是通過機(jī)器學(xué)習(xí)模型來檢測設(shè)備故障或者竊電等使用異常。如果不能對流數(shù)據(jù)進(jìn)行高吞吐、低延遲和準(zhǔn)確的處理,這些新的目標(biāo)都無法實現(xiàn)。

如果流處理做得不好,其他物聯(lián)網(wǎng)項目也會遭殃。大型設(shè)備,比如風(fēng)力渦輪機(jī)、生產(chǎn)設(shè)備和鉆井泵,都依賴對傳感器測量數(shù)據(jù)的分析來獲得故障警告。如果不能及時地處理好這些設(shè)備的流數(shù)據(jù),將可能付出高昂的代價,甚至導(dǎo)致災(zāi)難性后果。

1.1.3 電信業(yè)

電信業(yè)是一個特殊的例子,它廣泛地應(yīng)用了基于各種目的而產(chǎn)生的跨地域的事件流數(shù)據(jù)。如果電信公司不能很好地處理流數(shù)據(jù),就不能在某個移動通信基站出現(xiàn)流量高峰前預(yù)先將流量分配給其他的基站,也不能在斷電時快速做出反應(yīng)。通過處理流數(shù)據(jù)來進(jìn)行異常檢測,如檢測通話中斷或者設(shè)備故障,對于電信業(yè)來說至關(guān)重要。

1.1.4 銀行和金融業(yè)

因為流處理做得不好而給銀行以及金融業(yè)帶來的潛在問題是極其顯著的。從事零售業(yè)務(wù)的銀行不希望客戶交易被延遲或者因為錯誤統(tǒng)計而造成賬戶余額出錯。曾有一個說法叫作“銀行家工作時間”,指的就是銀行需要在下午早早關(guān)門進(jìn)行結(jié)算,這樣才能保證第二天營業(yè)之前算出準(zhǔn)確的賬。這種批量作業(yè)的營業(yè)模式早已消失。如今,交易和報表都必須快速且準(zhǔn)確地生成;有些新興的銀行甚至提供實時的推送通知,以及隨時隨地訪問手機(jī)銀行的服務(wù)。在全球化經(jīng)濟(jì)中,能夠提供24小時服務(wù)變得越來越重要。

那么,如果缺少能夠靈敏地實時檢測出用戶行為異常的應(yīng)用程序,會對金融機(jī)構(gòu)帶來什么后果呢?信用卡欺詐檢測需要及時的監(jiān)控和反饋。對異常登錄的檢測能發(fā)現(xiàn)釣魚式攻擊,從而避免巨大的損失。

在許多情況下,人們希望用低延遲或者實時的流處理來獲得數(shù)據(jù)的高時效性,前提是流處理本身是準(zhǔn)確且高效的。

主站蜘蛛池模板: 石屏县| 连平县| 墨竹工卡县| 香河县| 长汀县| 阳曲县| 高雄县| 伊春市| 长岭县| 平山县| 丘北县| 崇仁县| 洮南市| 瑞丽市| 天门市| 阜阳市| 清水河县| 曲松县| 梁山县| 库尔勒市| 于都县| 中宁县| 莒南县| 贵南县| 改则县| 阜宁县| 名山县| 沁水县| 高要市| 镇巴县| 垣曲县| 大悟县| 塔河县| 德江县| 合肥市| 商丘市| 曲松县| 吕梁市| 托克逊县| 宣武区| 察哈|