官术网_书友最值得收藏!

大數(shù)據(jù)的思維變革時(shí)代

大數(shù)據(jù)正猶如滔滔洪水般向我們襲來,世界正在以迅猛之勢(shì)被推進(jìn)大數(shù)據(jù)時(shí)代。大數(shù)據(jù)時(shí)代的出現(xiàn)更帶來了人們思維方式的巨大變革,即由原先的小數(shù)據(jù)思維轉(zhuǎn)變?yōu)榇髷?shù)據(jù)思維。大數(shù)據(jù)正改變著我們的方方面面,由此導(dǎo)致的思維變革也是具有必然性的。大數(shù)據(jù)思維變革具有整體性、多樣性、相關(guān)性等特征,因此,大數(shù)據(jù)實(shí)際上是一種復(fù)雜性思維。正如維克托·邁爾·舍恩伯格與肯尼思·庫克耶所著的《大數(shù)據(jù)時(shí)代》一書中所提到的:“大數(shù)據(jù)思維的變革具有更加深遠(yuǎn)和巨大的意義?!?/p>

1.整體性。整體性則是用全體劃一的目光來看待一切。早在古希臘時(shí)期,便開始有了尋找“基始”的傳統(tǒng),近代科學(xué)家中,以牛頓為代表,則更為擅長(zhǎng)分割整體,通過研究基本構(gòu)件來把握整體行為,這便是西方的還原論傳統(tǒng)。該理論認(rèn)為,大凡事物都可以分割為小部分,小部分遠(yuǎn)比整體更具重要性。事實(shí)上,這是當(dāng)時(shí)科學(xué)落后的產(chǎn)物,也是最早隨機(jī)抽樣的雛形。

但是,隨機(jī)抽樣只是數(shù)據(jù)收集與統(tǒng)計(jì)的一條捷徑,是在某些數(shù)據(jù)不可全面收集和全面分析的情況下不得不做的選擇,其本身存在著許多不可忽視的缺陷。它的成功建立在抽樣的絕對(duì)隨機(jī)的基礎(chǔ)之上,但是能做到現(xiàn)實(shí)抽樣的隨機(jī)性是非常困難的。一旦隨機(jī)抽樣過程中出現(xiàn)一絲主觀偏見,那么分析結(jié)果可能會(huì)相差很遠(yuǎn)。

然而,大數(shù)據(jù)的出現(xiàn)改變了人們?cè)械乃季S,使得整體和部分走向統(tǒng)一。大數(shù)據(jù)理論依然承認(rèn)整體由部分組成,但是大數(shù)據(jù)研究中,隨機(jī)抽樣已經(jīng)被取代,取而代之的是對(duì)全體數(shù)據(jù)進(jìn)行研究。在很多領(lǐng)域,我們需要的并不是部分?jǐn)?shù)據(jù)或者有局限性的數(shù)據(jù),我們更加需要的則是海量的、所有數(shù)據(jù),這就意味著“樣本=總體”。整體體現(xiàn)了全部,反映了所有細(xì)節(jié)。

2.多樣性。多樣性意味著世界存在多樣性和差異性。要想利用大數(shù)據(jù)獲得理想的效益,首先我們要以寬大的胸懷接受大數(shù)據(jù)本身的多樣性。

小數(shù)據(jù)時(shí)代,由于人們收集數(shù)據(jù)和處理數(shù)據(jù)都不容易,因此在要求上都比較嚴(yán)格,每個(gè)數(shù)據(jù)必須精確,例如身份證號(hào)碼對(duì)于每個(gè)人來說,其格式都是統(tǒng)一的,在人口普查中,要求嚴(yán)格按照標(biāo)準(zhǔn)化格式填寫,但一旦產(chǎn)生非標(biāo)準(zhǔn)格式的數(shù)據(jù),便將其當(dāng)作無用數(shù)據(jù)被排除。

在如今的大數(shù)據(jù)時(shí)代,我們要徹底打破以往追求數(shù)據(jù)精準(zhǔn)性的陳舊觀念和思維,雖然我們收集的數(shù)據(jù)沒有那么精準(zhǔn),但是從整體把握,那些龐大而多樣的信息卻讓我們的選擇變得更為劃算,更有價(jià)值。

我們簡(jiǎn)單地以GPS為例。眾所周知,GPS并不能做到完全定位,它通常會(huì)有幾十米的誤差,但只要給它加上地圖數(shù)據(jù),便可以保證你出行無誤;GPS容易受到外界的影響,由于天空衛(wèi)星狀態(tài)每天都在變化之中,因此我們?cè)诔鞘袃?nèi)使用的時(shí)候也許同一個(gè)地方,上午收訊滿格,到了晚上卻無法定位,更糟糕的是,或許一連好幾天定位狀況都不好,那么這時(shí)候在慣性導(dǎo)航系統(tǒng)的幫助下,GPS導(dǎo)航系統(tǒng)就可以正常工作了;由于運(yùn)動(dòng)傳感器在室內(nèi)的慣性導(dǎo)航會(huì)存在一定的累積誤差,加上辦公室里會(huì)有一定的磁傳感器干擾,在這種情況下,我們只要將WiFi的室內(nèi)定位與地圖相匹配,這樣就可以恢復(fù)工作了。

前面的這些例子充分說明,數(shù)據(jù)的多樣性也是有一定優(yōu)勢(shì)的。如果誤差是內(nèi)在的必然性,那么更多樣化的數(shù)據(jù)采集和信息融合便是能及時(shí)糾正這些誤差的一劑良藥。

3.相關(guān)性。通過大數(shù)據(jù)的相關(guān)性我們可以很好地捕捉現(xiàn)在并且預(yù)知未來,這是大數(shù)據(jù)相關(guān)性的一個(gè)非常重要、非常有價(jià)值的特點(diǎn)。以前人們總是先在腦海里建立一個(gè)想法,之后才去有針對(duì)性地收集相關(guān)數(shù)據(jù)資料來預(yù)測(cè)這個(gè)想法是否可行?,F(xiàn)在情況大不相同了,我們已經(jīng)掌握了十分龐大的數(shù)據(jù),并且擁有很好的工具,促使人們的思維有了一定的變化,想要預(yù)測(cè)未來將要發(fā)生的事情已經(jīng)是一件非常容易的事情了。

我們?cè)诖髷?shù)據(jù)的世界里,正在更加努力地利用這種相關(guān)性來預(yù)防或促成某些結(jié)果。這種相關(guān)性在醫(yī)學(xué)領(lǐng)域的應(yīng)用比較廣泛。

近期,在對(duì)棕櫚酸化的破壞與SAP致病相關(guān)性的深入研究中,醫(yī)學(xué)家們通過蛋白序列數(shù)據(jù)描述符和隨機(jī)森林方法構(gòu)建了一個(gè)數(shù)據(jù)模型,這個(gè)模型可以簡(jiǎn)單有效地識(shí)別棕櫚酸化的位點(diǎn),之后醫(yī)學(xué)家又對(duì)所有的人類單點(diǎn)氨基酸突變位點(diǎn)進(jìn)行預(yù)測(cè)識(shí)別,發(fā)現(xiàn)部分疾病的相關(guān)單點(diǎn)氨基酸突變位點(diǎn)驚人地被預(yù)測(cè)為棕櫚酸化位點(diǎn)。通過參考之前的臨床數(shù)據(jù)記載,發(fā)現(xiàn)其中5個(gè)位點(diǎn)的致病性與棕櫚酸化的破壞具有關(guān)聯(lián)性的這一結(jié)果基本上可以確定,這個(gè)研究很好地證明了醫(yī)學(xué)家們所建的數(shù)據(jù)模型具有很強(qiáng)的實(shí)用性,此外也在SAP的致病機(jī)理解釋方面具有非常有效的參考價(jià)值。這一研究所取得的準(zhǔn)確且可靠的預(yù)測(cè)結(jié)果,也給SAP建模的研究分析奠定了較為堅(jiān)實(shí)的數(shù)學(xué)理論基礎(chǔ)。

由上述例子來看,相比小數(shù)據(jù)時(shí)代,大數(shù)據(jù)的相關(guān)關(guān)系的分析方法則具有更精準(zhǔn)、更快捷、更不易受主觀偏見影響的優(yōu)勢(shì)。在社會(huì)環(huán)境下尋找關(guān)聯(lián)物只是大數(shù)據(jù)相關(guān)關(guān)系分析法中的一種方式。此外還有一種比較可行的方法,那就是通過找出新種類數(shù)據(jù)之間的相互聯(lián)系并由此而決定互相需要。目前一種被叫做預(yù)測(cè)相關(guān)分析法的方法在商業(yè)領(lǐng)域里被廣泛應(yīng)用,它可以很好地預(yù)測(cè)事件的發(fā)生。

主站蜘蛛池模板: 塘沽区| 东阳市| 普兰县| 双辽市| 谷城县| 泾阳县| 班玛县| 玛纳斯县| 政和县| 沙河市| 临漳县| 察隅县| 盐边县| 荣成市| 冀州市| 久治县| 绥阳县| 贵州省| 孙吴县| 阿勒泰市| 拉孜县| 随州市| 四平市| 东兰县| 沧源| 沅陵县| 顺平县| 洛阳市| 安宁市| 泰和县| 南郑县| 岱山县| 潮州市| 石家庄市| 瑞金市| 澄迈县| 伊通| 宁远县| 天镇县| 铜梁县| 长白|