官术网_书友最值得收藏!

1.1 大數據技術

當前,大數據技術在各個領域中受到高度關注,成為包括計算機科學和統計學在內的多個領域的新研究方向。在不同領域中,對于大數據的研究有較多的重疊,比如在計算機專業中涉及的機器學習算法模型,在統計學專業中被稱為統計分析建模技術。另外,一些商學院也引入了一些與數據科學和管理決策相關的課程,讓商學院的學生進行更多的數據科學決策思維訓練。

同時,在大數據研究中也存在一些誤區,如片面追求數據規模、過于強調計算系統架構和算法、過度依賴分析工具、忽視數據的應用、混淆數據科學與大數據的定義等。下面簡要介紹一下大數據的應用,以及數據科學在企業中的應用。

1.1.1 大數據的發展趨勢

提到大數據,不同的人有不同的理解和看法。下面介紹一下大數據技術的發展史。

在大數據開始流行之前,企業中的數據應用普遍處于BI(Business Intelligence,商務智能)階段,更多的企業是通過整合內部系統數據來解決企業的一些報表需求、實時分析需求的。后來,隨著互聯網中文本、音頻、視頻等數據的增加,傳統結構化數據處理方式受到進一步的挑戰。

以大數據處理能力著稱的Hadoop 生態體系及其技術的完善發展,給非結構化數據的處理,以及海量的數據處理帶來了福音。更多的互聯網公司首先傾向于搭建開源的Hadoop系統,進行數據的存儲、處理、分析。緊接著,像銀行等一些大型傳統企業也逐步引入Hadoop進行數據的存儲與分析,一時間,Hadoop成了大數據技術的代名詞。

1.1.2 大數據處理的基礎

Hadoop因為能夠處理更廣泛的數據,處理速度更快而被企業應用于數據存儲、計算與處理。

圖1-1中展示了Hadoop的整個生態體系,其中包括很多組件,這些組件分別被應用于數據的工作流處理,數據的傳輸、清洗、存儲,數據流工作任務的調度、管理以及查詢等。在具體的大數據項目實踐中,企業會根據具體的需求,采用相應的組件。

圖1-1 Hadoop生態體系

在具體的大數據項目中,主要會用到該生態體系下的下列技術。

HDFS(Hadoop分布式文件系統):用于存儲數據。

Sqoop、Flume和Kafka:用于進行數據工作流處理。

MapReduce和Hive/Pig:基于Hadoop做批量處理及計算。

1.1.3 企業中常見的大數據產品

企業在進行IT技術選型的時候,都希望將一些成熟的商用技術,用于快速搭建企業的大數據平臺,此時可以使用一些相對成熟的大數據產品(相對成熟的大數據產品有比較專業的技術服務),例如Cloudera、Hortonworks(目前這兩家公司合并了)等的產品。

Hortonworks是一家大數據公司,提供了集大數據存儲計算相關組件為一體的功能,幫助企業搭建基礎數據存儲、處理及管理平臺。

企業有了數據存儲、處理的新平臺后,如何利用好這些平臺上的數據呢?這就涉及數據科學了。接下來我們主要介紹什么是數據科學、大數據分析的原理及數據在企業中有哪些應用方向。

主站蜘蛛池模板: 上饶县| 辉县市| 江川县| 江山市| 洪泽县| 广州市| 花垣县| 五峰| 安新县| 昌宁县| 台南县| 广安市| 永兴县| 宁晋县| 巴彦县| 崇阳县| 崇信县| 鹿泉市| 高密市| 永平县| 大余县| 济源市| 张家川| 长春市| 额尔古纳市| 元江| 玉树县| 高台县| 云阳县| 靖西县| 龙胜| 西吉县| 绥江县| 珠海市| 松溪县| 开原市| 赞皇县| 莒南县| 东丰县| 咸阳市| 化州市|