- 數據決策:企業數據的管理、分析與應用
- 顧生寶
- 1066字
- 2020-09-29 16:09:50
1.1 大數據技術
當前,大數據技術在各個領域中受到高度關注,成為包括計算機科學和統計學在內的多個領域的新研究方向。在不同領域中,對于大數據的研究有較多的重疊,比如在計算機專業中涉及的機器學習算法模型,在統計學專業中被稱為統計分析建模技術。另外,一些商學院也引入了一些與數據科學和管理決策相關的課程,讓商學院的學生進行更多的數據科學決策思維訓練。
同時,在大數據研究中也存在一些誤區,如片面追求數據規模、過于強調計算系統架構和算法、過度依賴分析工具、忽視數據的應用、混淆數據科學與大數據的定義等。下面簡要介紹一下大數據的應用,以及數據科學在企業中的應用。
1.1.1 大數據的發展趨勢
提到大數據,不同的人有不同的理解和看法。下面介紹一下大數據技術的發展史。
在大數據開始流行之前,企業中的數據應用普遍處于BI(Business Intelligence,商務智能)階段,更多的企業是通過整合內部系統數據來解決企業的一些報表需求、實時分析需求的。后來,隨著互聯網中文本、音頻、視頻等數據的增加,傳統結構化數據處理方式受到進一步的挑戰。
以大數據處理能力著稱的Hadoop 生態體系及其技術的完善發展,給非結構化數據的處理,以及海量的數據處理帶來了福音。更多的互聯網公司首先傾向于搭建開源的Hadoop系統,進行數據的存儲、處理、分析。緊接著,像銀行等一些大型傳統企業也逐步引入Hadoop進行數據的存儲與分析,一時間,Hadoop成了大數據技術的代名詞。
1.1.2 大數據處理的基礎
Hadoop因為能夠處理更廣泛的數據,處理速度更快而被企業應用于數據存儲、計算與處理。
圖1-1中展示了Hadoop的整個生態體系,其中包括很多組件,這些組件分別被應用于數據的工作流處理,數據的傳輸、清洗、存儲,數據流工作任務的調度、管理以及查詢等。在具體的大數據項目實踐中,企業會根據具體的需求,采用相應的組件。

圖1-1 Hadoop生態體系
在具體的大數據項目中,主要會用到該生態體系下的下列技術。
HDFS(Hadoop分布式文件系統):用于存儲數據。
Sqoop、Flume和Kafka:用于進行數據工作流處理。
MapReduce和Hive/Pig:基于Hadoop做批量處理及計算。
1.1.3 企業中常見的大數據產品
企業在進行IT技術選型的時候,都希望將一些成熟的商用技術,用于快速搭建企業的大數據平臺,此時可以使用一些相對成熟的大數據產品(相對成熟的大數據產品有比較專業的技術服務),例如Cloudera、Hortonworks(目前這兩家公司合并了)等的產品。
Hortonworks是一家大數據公司,提供了集大數據存儲計算相關組件為一體的功能,幫助企業搭建基礎數據存儲、處理及管理平臺。
企業有了數據存儲、處理的新平臺后,如何利用好這些平臺上的數據呢?這就涉及數據科學了。接下來我們主要介紹什么是數據科學、大數據分析的原理及數據在企業中有哪些應用方向。