官术网_书友最值得收藏!

統計學應用的極致

從根本上來講,大數據方法論的歷史非常漫長。最早人們從自然科學、醫學中慢慢知道統計學,明白統計學能提供非常重要的規律。比如說在公共衛生領域,研究傳染病很難,因為發病快,病人馬上就死了,很難像對待癌癥那樣,去研究它的病理,那么最后是怎么發現傳染方式的呢?以霍亂為例,當時的科學家最后其實就是通過兩張地圖——霍亂病人的分布圖和倫敦水井的分布圖,發現規律認為霍亂的出現可能跟飲水有關。

又過了一段時間,物理學發展到量子力學,出現了海森堡測不準定理[1]。社會科學更是如此,從本質上講,一切的社會現象都是統計現象,并不像實驗室里的試驗那樣有明確的因果關系。所以從本質上來看,經濟學供求定理等也是統計規律。統計學如此重要,可我們認知能力中最差的恰恰正是統計思維。

2002年諾貝爾經濟學獎得主心理學家丹尼爾·卡尼曼曾指出,我們頭腦中有兩套思維,一套思維是本能的,比如我們的語言能力、模仿能力、第六感等都是與生俱來的。美國麻省理工學院的語言學家喬姆斯基也說過,小孩子為什么到3歲就能學會說話,而要到10多歲才能學會微積分呢?語言學得這么快,不是小孩“學”會的,而是嬰兒在出生時大腦中就預裝了一套系統。此外察言觀色的能力也不用特意學或教,所以這是人類的第一套思維系統,也是能夠讓我們快速反應的系統。另外一套思維系統,是當我們做數學推理,尤其是統計分析時需要用到的有意識的推理系統。這套思維系統運轉得很慢,因為所占“內存”太大。從這一角度來看,我們平時犯錯誤往往是因為僅使用本能思維,決策太快,而疏于使用第二套系統,進而導致統計判斷方面出現問題。

大數據是一個新現象嗎?當然是。但它的方法論的歷史已經非常悠久了。現在大家突然熱議大數據,主要是因為一方面數據越來越多,未來可能會出現瞬間計算的新時代;另一方面,能夠被數據化的東西也越來越多,過去只有數字,而會計制度出來后,經濟活動也開始可以通過記賬被數據化。

大數據或稱巨量資料(big data,mega data),指需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。普遍認為通過大數據技術和科學的進步,能更好地預測人類行為。

文字、圖像也可以被數字化,我們用iPad或Kindle閱讀電子書,就是文字和圖像數據化的例證。再講一個故事,美國曾有一樁著名的醫院丑聞:一名醫生工作時偷懶,在印度找了兩個在美國上過醫學院的哥們,下班之后把拍的片子傳到印度,然后自己回家睡覺。印度的兩個人則替他把報告寫好,等美國醫生早上醒來,報告已從印度傳了過來。為什么這名美國醫生能夠作弊成功呢?就是因為圖像傳輸已完全實現數字化,而且越來越高清。

方位能實現數字化。如果你不知道自己在哪兒,沒關系,打開手機上的地圖或導航應用,它就會幫你定位,還能發給他人。社會關系也可以越來越數字化,你的朋友圈、臉譜主頁、微信群都能夠被當成數據進行分析。

現在能夠變成數據的東西越來越多,計算和處理數據的能力也越來越強,一旦把統計學和現在大規模的數據融合在一起,將會顛覆很多我們原來的思維。

主站蜘蛛池模板: 肇源县| 亳州市| 上林县| 厦门市| 泽库县| 兴隆县| 宁都县| 蒙自县| 广饶县| 东丰县| 格尔木市| 山东| 阳新县| 托克逊县| 昂仁县| 三门县| 普定县| 信丰县| 广安市| 两当县| 东乌珠穆沁旗| 临泽县| 江山市| 郁南县| 乐至县| 达日县| 车致| 库伦旗| 怀远县| 深圳市| 玉树县| 得荣县| 阿坝县| 金堂县| 璧山县| 射阳县| 分宜县| 响水县| 辽宁省| 曲麻莱县| 灵山县|