官术网_书友最值得收藏!

理解大數(shù)據(jù)

我們很難為“大數(shù)據(jù)”找到一個(gè)一致的定義。這個(gè)術(shù)語似乎已經(jīng)演變成與數(shù)據(jù)相關(guān)的一切內(nèi)容,包括收集、存儲(chǔ)、分析或使用數(shù)據(jù)的一系列過程——因此你認(rèn)為你能“制作”大數(shù)據(jù)。從我的角度來看,你不需要成為一名學(xué)者才知道你能不能“做”。

《牛津英語生活詞典》(English Oxford Living Dictionary)與我的想法一致,相對(duì)來說也更值得信賴。它將大數(shù)據(jù)定義為“可以通過計(jì)算分析來揭示模式、趨勢和關(guān)聯(lián),尤其是與人類行為和互動(dòng)有關(guān)的超大數(shù)據(jù)集”。盡管字典上有明確的定義,但由于“大數(shù)據(jù)”被濫用為營銷流行語,該詞詞義被混淆的情況仍然盛行。

加州大學(xué)伯克利分校信息學(xué)院(UC Berkeley School of Information)的一個(gè)團(tuán)隊(duì)進(jìn)行了一項(xiàng)簡單的實(shí)驗(yàn),這就是一個(gè)明顯的例子。該實(shí)驗(yàn)旨在一勞永逸地回答這個(gè)問題:“什么是大數(shù)據(jù)?”

人們本希望該領(lǐng)域的專家們能就數(shù)據(jù)的定義達(dá)成一致,然后大家都可以采用確定下來的定義,但遺憾的是,他們并未成功。我分析了43位專家的答案,發(fā)現(xiàn)了一些令人驚訝和有趣的事實(shí)。

大約10%的答案是相當(dāng)有哲理的。例如,加州大學(xué)伯克利分校信息學(xué)院的迪爾德麗·穆里根(Deirdre Mulligan)將大數(shù)據(jù)描述為“無限的可能性或從搖籃到墳?zāi)沟募湘i,并取決于我們所做的政治、道德和法律選擇”。來自佛羅里達(dá)的數(shù)據(jù)項(xiàng)目負(fù)責(zé)人德魯·康威(Drew Conway)是這樣定義的:“大數(shù)據(jù)起初是分布式計(jì)算領(lǐng)域的技術(shù)創(chuàng)新,現(xiàn)在是一個(gè)文化運(yùn)動(dòng),通過它,我們可以繼續(xù)探索人類與世界之間的互動(dòng)——人類彼此之間的互動(dòng)——而且還是大規(guī)模的互動(dòng)?!?/p>

籠統(tǒng)來說,研究結(jié)果表明,關(guān)于大數(shù)據(jù)究竟是什么,通常存在兩種觀點(diǎn)。一些人將大數(shù)據(jù)描述為一種活動(dòng)、一種方法或一個(gè)過程,而另一些人則將其描述為一個(gè)事物、一個(gè)項(xiàng)目或一個(gè)實(shí)體。

約33%的定義將大數(shù)據(jù)描述為一種活動(dòng)。我舉了幾個(gè)例子,首先是企業(yè)家,領(lǐng)英(LinkedIn)前首席執(zhí)行官彼得·斯科莫洛奇(Peter Skomoroch),他寫道:“大數(shù)據(jù)最初描述的是消費(fèi)互聯(lián)網(wǎng)行業(yè)將算法應(yīng)用于越來越多的不同數(shù)據(jù)中,以解決用較小的數(shù)據(jù)集無法獲得最佳解決方案的問題。”

數(shù)據(jù)工作者菲利普·阿什洛克(Philip Ashlock)說:“雖然數(shù)據(jù)這個(gè)詞的使用是相當(dāng)模糊的,常被用于其他目的,我理解的‘大數(shù)據(jù)’是混亂的分析數(shù)據(jù),或者你根本都不知道如何提出正確的問題或怎么提問——分析可以幫助你找到模式、異?;虼嬖谟谠净靵y或復(fù)雜數(shù)據(jù)點(diǎn)中的新結(jié)構(gòu)……”

最后一個(gè)例子來自希拉里·梅森(Hilary Mason),她是機(jī)器學(xué)習(xí)研究公司Fast Forward Labs[1]的創(chuàng)始人,她將大數(shù)據(jù)描述為,“收集信息和查詢信息的能力,這樣我們就能夠了解世界上以前我們無法了解的事情”。

對(duì)于這些專家來說,大數(shù)據(jù)是一個(gè)過程,包括數(shù)據(jù)的收集和分析以及算法的應(yīng)用。用這種方式描述大數(shù)據(jù)是沒有用的,因?yàn)槿藗兛赡軙?huì)問:“如果大數(shù)據(jù)是一個(gè)過程,那么分析、機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)又是什么?”

剩下53%的專家對(duì)大數(shù)據(jù)的描述是表面化的:大數(shù)據(jù)就是數(shù)據(jù),只不過是大量數(shù)據(jù)組合在一起而已。谷歌的首席經(jīng)濟(jì)學(xué)家將大數(shù)據(jù)描述為“標(biāo)準(zhǔn)關(guān)系數(shù)據(jù)庫無法輕易容納的數(shù)據(jù)”。加州大學(xué)伯克利分校信息學(xué)院講師安妮特·格雷尼爾(Annette Greinier)將大數(shù)據(jù)描述為“包含了足夠多的觀測數(shù)據(jù),由于其龐大的規(guī)模,我們需要非常規(guī)的處理方式”。

我的觀點(diǎn)與加州大學(xué)伯克利分校的研究中53%的專家觀點(diǎn)是一致的。大數(shù)據(jù)不可能是一個(gè)過程,它僅僅是大量的數(shù)據(jù)——關(guān)于活動(dòng)、事件、環(huán)境或情況的過量數(shù)據(jù)。銷售數(shù)據(jù)、事故記錄和溫度都是數(shù)據(jù)。它可以包含一直存在的定性或定量的可變因素,只是如今有更多的可變因素被捕捉和存儲(chǔ)。

“數(shù)據(jù)”和“大數(shù)據(jù)”是唯一可以互換使用的術(shù)語,因?yàn)樗鼈儗?shí)際上是同一個(gè)意思?!按髷?shù)據(jù)”一詞能與現(xiàn)在可用的海量數(shù)據(jù)相對(duì)應(yīng)。因此在本書中,你會(huì)看到我更多地使用“大數(shù)據(jù)”,而不是“數(shù)據(jù)”,因?yàn)閿?shù)據(jù)量將不可避免地繼續(xù)增長。然而,“大數(shù)據(jù)”一詞不僅僅強(qiáng)調(diào)產(chǎn)生的數(shù)據(jù)量。為了抓住大數(shù)據(jù)的真正本質(zhì),我們必須承認(rèn)如今數(shù)據(jù)的其他“大”的屬性。

主站蜘蛛池模板: 连山| 杨浦区| 台东县| 维西| 平山县| 日照市| 九寨沟县| 景泰县| 青阳县| 崇明县| 靖边县| 江口县| 察隅县| 六枝特区| 尼玛县| 区。| 维西| 保靖县| 潍坊市| 莱西市| 古浪县| 安岳县| 乾安县| 湟源县| 社旗县| 宁安市| 隆子县| 汝南县| 沾益县| 泗阳县| 云林县| 安溪县| 大方县| 隆德县| 阿克陶县| 土默特左旗| 衡阳市| 曲周县| 高碑店市| 长泰县| 肥东县|