集结号捕鱼上下分微信号

書名：數據決策：企業數據的管理、分析與應用
作者名：顧生寶
本章字數： 1066字
更新時間： 2020-09-29 16:09:50

1.1 大數據技術

當前，大數據技術在各個領域中受到高度關注，成為包括計算機科學和統計學在內的多個領域的新研究方向。在不同領域中，對于大數據的研究有較多的重疊，比如在計算機專業中涉及的機器學習算法模型，在統計學專業中被稱為統計分析建模技術。另外，一些商學院也引入了一些與數據科學和管理決策相關的課程，讓商學院的學生進行更多的數據科學決策思維訓練。

同時，在大數據研究中也存在一些誤區，如片面追求數據規模、過于強調計算系統架構和算法、過度依賴分析工具、忽視數據的應用、混淆數據科學與大數據的定義等。下面簡要介紹一下大數據的應用，以及數據科學在企業中的應用。

1.1.1 大數據的發展趨勢

提到大數據，不同的人有不同的理解和看法。下面介紹一下大數據技術的發展史。

在大數據開始流行之前，企業中的數據應用普遍處于BI（Business Intelligence，商務智能）階段，更多的企業是通過整合內部系統數據來解決企業的一些報表需求、實時分析需求的。后來，隨著互聯網中文本、音頻、視頻等數據的增加，傳統結構化數據處理方式受到進一步的挑戰。

以大數據處理能力著稱的Hadoop 生態體系及其技術的完善發展，給非結構化數據的處理，以及海量的數據處理帶來了福音。更多的互聯網公司首先傾向于搭建開源的Hadoop系統，進行數據的存儲、處理、分析。緊接著，像銀行等一些大型傳統企業也逐步引入Hadoop進行數據的存儲與分析，一時間，Hadoop成了大數據技術的代名詞。

1.1.2 大數據處理的基礎

Hadoop因為能夠處理更廣泛的數據，處理速度更快而被企業應用于數據存儲、計算與處理。

圖1-1中展示了Hadoop的整個生態體系，其中包括很多組件，這些組件分別被應用于數據的工作流處理，數據的傳輸、清洗、存儲，數據流工作任務的調度、管理以及查詢等。在具體的大數據項目實踐中，企業會根據具體的需求，采用相應的組件。

圖1-1 Hadoop生態體系

在具體的大數據項目中，主要會用到該生態體系下的下列技術。

HDFS（Hadoop分布式文件系統）：用于存儲數據。

Sqoop、Flume和Kafka：用于進行數據工作流處理。

MapReduce和Hive/Pig：基于Hadoop做批量處理及計算。

1.1.3 企業中常見的大數據產品

企業在進行IT技術選型的時候，都希望將一些成熟的商用技術，用于快速搭建企業的大數據平臺，此時可以使用一些相對成熟的大數據產品（相對成熟的大數據產品有比較專業的技術服務），例如Cloudera、Hortonworks（目前這兩家公司合并了）等的產品。

Hortonworks是一家大數據公司，提供了集大數據存儲計算相關組件為一體的功能，幫助企業搭建基礎數據存儲、處理及管理平臺。

企業有了數據存儲、處理的新平臺后，如何利用好這些平臺上的數據呢？這就涉及數據科學了。接下來我們主要介紹什么是數據科學、大數據分析的原理及數據在企業中有哪些應用方向。

官术网_书友最值得收藏!

數據決策：企業數據的管理、分析與應用

1.1 大數據技術

1.1.1 大數據的發展趨勢

1.1.2 大數據處理的基礎

1.1.3 企業中常見的大數據產品