官术网_书友最值得收藏!

1.4 大數(shù)據(jù)技術(shù)框架

大數(shù)據(jù)技術(shù)是一系列技術(shù)的總稱,集合了數(shù)據(jù)采集與傳輸、數(shù)據(jù)存儲、數(shù)據(jù)處理與分析、數(shù)據(jù)挖掘、數(shù)據(jù)可視化等技術(shù),是一個龐大而復(fù)雜的技術(shù)體系。根據(jù)大數(shù)據(jù)從獲取到應(yīng)用的流程,大數(shù)據(jù)技術(shù)框架分為數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)治理與建模以及數(shù)據(jù)應(yīng)用等層,大數(shù)據(jù)技術(shù)框架如圖1-8所示。

數(shù)據(jù)采集是大數(shù)據(jù)技術(shù)框架的第一層,通過使用大數(shù)據(jù)采集技術(shù)獲得來自傳感器、移動互聯(lián)網(wǎng)等的各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù),為實現(xiàn)對數(shù)據(jù)的抽取—轉(zhuǎn)換—加載(Extract-Transform-Load,ETL)操作打好基礎(chǔ)。

當大量的數(shù)據(jù)采集完成后,需要對數(shù)據(jù)進行存儲。數(shù)據(jù)存儲可以分為持久化存儲和非持久化存儲。持久化存儲表示把數(shù)據(jù)存儲在磁盤等介質(zhì)中,存儲機器異常斷電或者損壞后,只要存儲介質(zhì)未被損壞,數(shù)據(jù)就不會丟失,常見的持久化工具有HDFS、HBase和MongoDB等。非持久化存儲表示把數(shù)據(jù)存儲在內(nèi)存中,具有讀寫速度快等優(yōu)點,但是存儲機器關(guān)機或斷電后,數(shù)據(jù)就會丟失,常見的工具有Memcached等。Redis通過作為持久化存儲和非持久化存儲的中介,為非持久化存儲的數(shù)據(jù)提供緩存機制,可以大幅提高系統(tǒng)的響應(yīng)速度,降低非持久化存儲的壓力。

圖1-8 大數(shù)據(jù)技術(shù)框架

數(shù)據(jù)存儲完成之后,還需要考慮如何利用它們產(chǎn)生更大的價值。因此,我們需要進行數(shù)據(jù)處理。目前數(shù)據(jù)處理主要分為兩類:在線處理和離線處理。在線處理是對實時響應(yīng)要求非常高的處理,如對存儲數(shù)據(jù)的數(shù)據(jù)庫的一次查詢操作。而離線處理就是對實時響應(yīng)沒有要求的處理,如批量壓縮文檔。利用消息機制可以提升處理的及時性,Hadoop的MapReduce是一種典型的離線批量計算框架。

數(shù)據(jù)采集、數(shù)據(jù)存儲和數(shù)據(jù)處理是大數(shù)據(jù)技術(shù)框架的基礎(chǔ)。一般情況下,完成上述三個步驟,就已經(jīng)將數(shù)據(jù)轉(zhuǎn)化為可以進行初步挖掘的基礎(chǔ)數(shù)據(jù),為上層的數(shù)據(jù)應(yīng)用提供了數(shù)據(jù)支撐。但是在大數(shù)據(jù)時代,由于數(shù)據(jù)具有類型多樣、價值密度低的特點,還要求對數(shù)據(jù)進行治理和融合建模。通常利用R語言、Python等對數(shù)據(jù)進行ETL預(yù)處理,然后再根據(jù)算法模型、業(yè)務(wù)模型進行融合建模,才能更好地為業(yè)務(wù)應(yīng)用提供優(yōu)質(zhì)底層數(shù)據(jù)。

數(shù)據(jù)應(yīng)用層反映大數(shù)據(jù)技術(shù)應(yīng)用的目標,通常包括信息檢索、關(guān)聯(lián)分析等功能。信息檢索主要是根據(jù)用戶需求,通過全面、準確地查找數(shù)據(jù)庫,從海量的數(shù)據(jù)中返回用戶需要的信息。Lucene和Elasticsearch等開源項目為信息檢索的實現(xiàn)提供了支持。關(guān)聯(lián)分析通常用來挖掘數(shù)據(jù)之間的內(nèi)在聯(lián)系,常用在產(chǎn)品推薦與引導(dǎo)、用戶精準營銷中。

大數(shù)據(jù)技術(shù)框架為大數(shù)據(jù)的業(yè)務(wù)應(yīng)用提供了一種通用的架構(gòu),實際應(yīng)用時還需要根據(jù)行業(yè)領(lǐng)域、公司技術(shù)積累以及業(yè)務(wù)場景,從業(yè)務(wù)需求、產(chǎn)品設(shè)計、技術(shù)選型到實現(xiàn)方案流程上具體問題具體分析。

主站蜘蛛池模板: 卓尼县| 璧山县| 嘉善县| 西乡县| 湟中县| 游戏| 万山特区| 惠州市| 阳东县| 青浦区| 扬州市| 麟游县| 即墨市| 门头沟区| 伊宁市| 彭山县| 永清县| 浮梁县| 循化| 桐梓县| 清原| 河南省| 西乡县| 巫山县| 岢岚县| 奉化市| 泌阳县| 柳河县| 五莲县| 襄城县| 那坡县| 陕西省| 蕲春县| 沙洋县| 遂平县| 修水县| 绥芬河市| 余姚市| 广平县| 马公市| 和平区|