第1章 解密數據
為了建立對數據的企業層面的理解,我們需要了解數據是什么,我們可以用它做什么,以及在哪里應用它。以上三點是建立對數據的全面理解的三個重要支柱。更重要的是,它們為如何利用數據創造價值奠定了基礎。然而,我們面臨的挑戰是,數據世界增長太快,因此它充斥著太多復雜的術語,這使我們對這三個支柱進行理解變得非常困難。
2015年年初,我參加了一個關于大數據的會議。不久之后,我參加了一個人工智能峰會,然后年底我又參加了一個關于數據科學的晚會,巧合的是每場會議都有四個人發言。
不那么巧合但或許更有趣的是,每個演講者在每種情況下的演講幾乎都沒什么太大的變化。大多數情況下,每個人都做了完全一樣的陳述,逐字逐句地展示了完全相同的幻燈片。這是否意味著大數據、數據科學和機器學習都是一回事?
通常,當你聽到人們談論數據時,你也會聽到“大數據”“數據科學”“機器學習”“物聯網”“人工智能”等術語。這些術語經??梢曰Q使用,盡管它們各自在發揮數據革命的真正潛力方面發揮著不同但都很重要的作用。
我當時領導著一個大約15人的小型工作室,我決定問問他們對這些術語的定義。在大多數情況下,他們籠統地表示這是一回事,這說明大多數關于數據的新術語沒有被準確地理解。大多數人,包括那些自稱專家的高管和個人,都無法告訴你這些術語之間究竟有什么區別。這使得高管們難以參與對話,導致企業聘用了不合適的員工,無法構建強有力的數據戰略,也無法執行他們確定的戰略。如果不知道這些關鍵術語之間的差異,你又怎么能理解如何最大限度地利用數據呢?
因此,我們必須首先為相關重要和流行的術語提供簡明的定義。為了確保你能加入談話,領導、經理甚至招聘代理,將需要花精力去理解和解釋以下這些關鍵的術語:
●數據;
●大數據;
●云計算;
●分布式計算;
●分析;
●數據科學;
●人工智能;
●機器學習;
●數據工程。
對于這些術語的定義,我們必須回顧一個案例:IT界選擇用“挖掘”這個詞來描述企業應該如何處理數據,我發現這是一個很好的類比。21世紀初,我在一家大型鉆石開采企業牽頭執行了五年的數據計劃,我研究了開采礦產材料的高級價值鏈,其中包括四個重點領域:
●原材料;
●存儲和處理;
●處理程序;
●在各種加工過程中使用的特殊技術。
為了說明數據中復雜的術語和定義,我大量借用了上述這些概念,并將它們直接應用于數據世界中的所有關鍵概念。處理數據就像開采鉆石一樣,必須將原始元素收獲并存儲在一個準備加工的位置,然后根據目的使用特定的技術,進行特定的加工。
本章中,我將深入探討這四個類別中的每一個,以揭示復雜語言在企業數據計劃(成功或失?。┲兴缪莸闹匾巧?。這將使來自各行各業(從營銷到招聘再到管理)的高管和非技術人員具備參與對話所需的知識。