官术网_书友最值得收藏!

1.2 機(jī)器學(xué)習(xí)和大數(shù)據(jù)

我們知道,大數(shù)據(jù)(Big Data)是收集和分析巨量數(shù)據(jù)的過程,它有助于發(fā)現(xiàn)隱藏的有用模式和其他信息,例如客戶選擇、市場趨勢等等。這些信息往往對一個企業(yè)的業(yè)務(wù)決策起著重要作用。

關(guān)于“大數(shù)據(jù)”這一個術(shù)語的來源有多種版本。一個說法是,在2005年,來自O(shè)'Reilly Media公司(世界上具有領(lǐng)導(dǎo)地位的出版公司,同時也是聯(lián)機(jī)出版的先鋒)的Roger Mougalas首次創(chuàng)造了“大數(shù)據(jù)”一詞,它指的是使用傳統(tǒng)的商業(yè)智能工具幾乎無法管理和處理的大量數(shù)據(jù)。同年,目前非常流行的大數(shù)據(jù)平臺Hadoop由雅虎(Yahoo)推出,其目標(biāo)是對整個萬維網(wǎng)建立索引。

現(xiàn)在大數(shù)據(jù)是繼資本資源、人力資源和自然資源之后的第四種生產(chǎn)要素,對整個社會的經(jīng)濟(jì)發(fā)展產(chǎn)生了巨大影響。麥肯錫全球研究所(McKinsey Global Institute)對大數(shù)據(jù)的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模(Volume)、快速的數(shù)據(jù)流轉(zhuǎn)(Velocity)、多樣的數(shù)據(jù)類型(Variety)和價值密度低(Value)四大特征,簡稱為4V,如圖1-5所示。

圖1-5 大數(shù)據(jù)的4V特征

除了上面的4V外,也有學(xué)者認(rèn)為還應(yīng)添加一個真實性(Veracity),最后簡稱為5V。

大數(shù)據(jù)和機(jī)器學(xué)習(xí)都屬于數(shù)據(jù)科學(xué)的范疇,它們的研究范圍之間互有重疊,并且相互依賴。從處理方式和應(yīng)用方面兩者具有下面的區(qū)別:

◇大數(shù)據(jù)的主要工作包括如何存儲、治理數(shù)據(jù)以及提取的工具(通常為Hadoop),所以大數(shù)據(jù)與高性能計算有緊密的關(guān)系;而機(jī)器學(xué)習(xí)是計算機(jī)科學(xué)和人工智能的一個分支,它能賦予計算機(jī)無須明確編程就能學(xué)習(xí)的能力。

◇大數(shù)據(jù)分析是基于已有歷史數(shù)據(jù),分析并發(fā)現(xiàn)隱含其內(nèi)的模式或信息;而機(jī)器學(xué)習(xí)的目的是訓(xùn)練機(jī)器如何對新數(shù)據(jù)進(jìn)行響應(yīng),并給出輸出結(jié)果。

◇大數(shù)據(jù)分析涉及數(shù)據(jù)的結(jié)構(gòu)和數(shù)據(jù)建模,所以需要人工介入;而機(jī)器學(xué)習(xí)執(zhí)行的工作往往是自動進(jìn)行的,無須人工干預(yù),如自動駕駛等。

實際上,大數(shù)據(jù)通常是作為機(jī)器學(xué)習(xí)的輸入,兩者的結(jié)合可以給企業(yè)帶來奇跡,通過機(jī)器學(xué)習(xí)等技術(shù),可以充分利用和發(fā)揮大數(shù)據(jù)的價值,如圖1-6所示。

圖1-6 大數(shù)據(jù)和機(jī)器學(xué)習(xí)的關(guān)系

主站蜘蛛池模板: 岳池县| 潜江市| 弥渡县| 马尔康县| 阳泉市| 合作市| 黎川县| 丹东市| 高台县| 托里县| 开阳县| 梅州市| 义乌市| 兴隆县| 阿克苏市| 湛江市| 兴宁市| 葵青区| 南昌市| 麻城市| 石泉县| 游戏| 湖南省| 六枝特区| 建阳市| 卢龙县| 吉安县| 分宜县| 渭源县| 容城县| 三门峡市| 郸城县| 蒙山县| 大渡口区| 彝良县| 宾阳县| 承德县| 新乐市| 石狮市| 宁津县| 长宁县|