- 一本讀透影響時代的七大技術(《哈佛商業評論》增刊)
- 哈佛商業評論
- 7167字
- 2021-04-09 20:52:23
一本讀透影響時代的七大技術
數據科學家: 21世紀“最性感的職業”
托馬斯·達文波特 (Thomas H.Davenport) D.J. 帕蒂爾(D.J.Patil) | 文 熊靜如 | 譯
2006年6月,喬納森·高德曼(Jonathan Goldman)進入商務社交網站LinkedIn工作。那時的LinkedIn還像是一家初創企業,只有不到800萬個用戶。隨著這些用戶不斷邀請朋友同事加入,網站的用戶數量開始迅速增長。但是,用戶在已注冊者中尋找聯系人的比例卻沒有達到管理者們的預期。顯然,這種社交體驗不夠完整。正如LinkedIn的一位經理所言,“這種情況就如同你到達會議接待處,發現自己誰都不認識,只能呷著飲料呆在角落—你很可能會提前離場。”
高德曼作為斯坦福大學物理學博士,醉心于無處不在的鏈接和豐富的用戶資料。雖然這兩者通常只能形成混亂的數據和淺顯的分析,但當他著手挖掘人際聯系時,卻從中發現了“新大陸”。他開始構建理論、檢驗預設,并研究出了模型。通過這些模型,他可以預測出某賬號所歸屬的人際網絡。高德曼覺得,在探索基礎之上形成的新功能也許能為用戶提供價值。但LinkedIn的工程師團隊,一心只想擴大網站規模,對高德曼的想法無動于衷。當時一些同事甚至公然對高德曼的想法嗤之以鼻—網站已經有地址簿輸入端,可以將用戶所有的聯系人導入進來。為什么還要LinkedIn為用戶找出他們的人際網絡?
幸運的是,LinkedIn的聯合創始人兼時任CEO雷德·霍夫曼(現執行總裁),在貝寶(PayPal)的工作經驗讓他對分析學的威力深信不疑,因此,他給了高德曼高度的自主權。首先,他給予高德曼一個不同于傳統產品發布套路的新方式—在網站黃金頁面以廣告的形式掛出小型加載模塊。
通過該模塊,高德曼開始測試—如果將人們可能認識(例如那些同時期在同一學校或工作場所的人)但尚未彼此聯系的人名推薦給他們,將會發生什么?測試采取的方式是,以用戶在LinkedIn的個人資料為基礎,用商業廣告的形式為每個用戶推薦三名最匹配的新聯系人。短短幾天之內,該測試就顯示出非凡成效。這些廣告創造了前所未有的高點擊率。高德曼繼續改良推薦聯系人的生成方式,提煉出合并社交網絡的理念,比如,“三角形閉合”—如果你認識拉里和蘇,那么拉里和蘇很有可能彼此相識。高德曼和他的團隊還把回復推薦廣告的動作簡化為一次點擊。

LinkedIn的高管們沒過多久便意識到這是一個好點子,并將之固化為標準功能。此時,新功能開始大放異彩。與其他旨在促進用戶多瀏覽網站頁面的促銷手段相比,“你可能認識的人”(People You May Know)—這一廣告的點擊率高出30%,創造了以百萬計的新頁面瀏覽量。得益于這一功能,LinkedIn的增長曲線急劇攀升。
一項新職業
高德曼代表著組織中新的關鍵角色—“數據科學家”(Data Scientist)。他們是一群訓練有素、樂于在大數據的世界中進行探索的高級專家。這一職位近幾年才涌現出來(實際上,這一概念直到2008年,才由本文作者之一D.J. 帕蒂爾和杰夫·哈默巴赫爾創造,隨后LinkedIn和Facebook在數據和分析領域各領風騷)。但是目前數千名數據科學家已經供職于各類公司,包括初創型企業和根基穩固的公司。數據科學家在商業世界中嶄露頭角反映出一個事實:企業正在應對前所未有的龐大而多樣的信息。如果你的組織存有數千萬億字節的海量數據;如果那些對企業至關重要的信息排列無序;再或者,如果解決你最大的難題需要融合多種分析工具的話,那么,恭喜你,利用大數據的機會來啦!
目前,對于大數據的熱情多數聚焦于能夠馴服大數據的技術,包括分布式計算Hadoop(應用最廣的文件系統處理框架)以及相關開源工具、云計算和數據可視化。雖然這些技術可謂神兵利器,但擁有精通這些技術(以及思想)的人才更加重要。在這一前沿領域,此類人才已經供不應求。事實上,數據科學家短缺已成為制約一些部門發展的瓶頸。曾投過Facebook、LinkedIn、Palo Alto Networks(著名網絡安全公司)和Workday(人力資源軟件制造商)的早期風險投資公司格雷洛克風險投資公司,對于緊缺的人才供應感到非常焦慮,于是他們建立了特別招聘團隊,將人才直接輸送給企業的相關業務部門。“一旦有了數據”,該團隊負責人丹·波蒂略(Dan Portillo)說,“企業就需要能夠管理和洞察它們的人”。
這些人是誰?
如果說,對大數據的利用很大程度上依賴于聘用稀缺的數據科學家,那么管理者面臨的挑戰就是學習如何發現和招聘這些人才并為公司所用。這些任務一旦與管理者的其他組織角色結合,便不再像看上去那么簡單明了。事實上,所有大學都尚未設置數據科學的學位(課程)。同樣,數據科學家在組織中的諸多問題也未有定論,比如他們應該扮演什么角色,這一角色如何才能創造最大價值,以及該如何衡量他們的表現。
因此,解決數據科學家短缺的第一步,是理解他們在企業中的職責,然后再思考,他們應該具備什么技能?這些技能最容易在什么領域找到?
數據科學家徜徉于數據海洋的同時,最重要的是進行探索。為身邊的世界導航正是他們的拿手好戲,他們在數據領域得心應手,能夠將大量不規則數據組織起來,使之成為可分析的數據。他們找出豐富的數據源,并與其他數據源(可能是不完整的數據源)連接起來,清理、簡化運算結果。在充滿競爭的世界中,挑戰隨時變化,數據流動不息,數據科學家能幫助決策者從特設分析(ad hoc analysis)轉向與數據持續不斷的對話。
數據科學家認識到所面臨的技術限制,但是他們不愿意停下研究等待新解決方案的出現。一旦他們有了新成果,就非常樂于傳播新成果,并闡明該成果對企業未來發展方向的影響。通常他們在信息可視化展示以及令模式清晰化、更具有說服力方面頗有創意。他們依據數據所顯示出的信息,為企業高管和產品經理提供產品、流程、決策方面的建議。
數據科學家的短缺將成為制約一些業務發展的瓶頸
核心觀點
一個全新角色在公司中的地位正在迅速崛起:那就是數據科學家。數據科學家是一群懂得如何從現有的海量非結構化信息中采擷重要商業難題答案的人。在企業奔向大數據應用的道路上,最大的絆腳石就是這類特殊人才的短缺。
大學里還沒有大量炮制數據科學家的課程,因此招聘數據科學家時要有創造力。你可以從任何一個以數據和運算為重點的領域來尋找,從實驗物理學到系統生物學不一而足。你還要認識到,吸引和留住一個數據科學家的理由,可能不同于其他專家。
數據科學家需要自治權利,同時還想登上“艦橋”,隨時回應負責管理的同事提出的管理問題。薪金意味著價值,但在這個快速發展的學科中,解決有趣的問題、利用最豐富的數據流,從而出人頭地的機會,可能意味著更多。
由于這項業務正處在發展初期,數據科學家往往還要承擔起改進數據分析工具甚至開展學術研究的任務。雅虎是早期雇用數據科學家的公司之一,在開發數據分析工具Hadoop方面貢獻良多。Facebook的數據團隊為Hadoop編程開發了Hive(一個數據倉庫框架)。還有許多數據科學家參與了改善技術工具的過程,這種情況尤以數據驅動型企業為甚,如谷歌、亞馬遜、微軟、沃爾瑪、eBay、LinkedIn和Twitter。
何人能勝任這些事?成功的數據科學家應具備什么能力?答案是:他(或她)應該是數據黑客、分析師、傳播者和靠譜顧問的綜合體,這樣的組合可謂極其強大,同時也極其罕見。
數據科學家最基本和普遍的能力是寫代碼。但5年后,當比今天多得多的人把“數據科學家”這一頭銜印在名片上時,這一點可能沒那么絕對。比寫代碼能力更持久走俏的,是能夠用所有利益相關者都能聽明白的語言進行交流的能力。他們要能夠展示出用數據說話的能力,包括口頭表達和形象化展示,最好兩者兼備。
但我們認為,數據科學家身上最重要的品質是強烈的好奇心,即透過現象看本質并將之提煉為清晰的、可驗證的假說的能力。這一點通常需要聯想思維,正是聯想思維塑造了各個領域中最富創造力的科學家。舉例來說,我們知道,有一個研究欺詐問題的數據科學家就想到,他所研究的問題和DNA排序問題具有相似性。通過將兩個不相關的領域聯系起來,他和他的團隊起草出了一個能夠顯著減少欺詐損失的方案。
為什么對這一新角色冠以“科學家”的稱號?答案或許已浮現出來。例證之一就是實驗物理學家,他們同樣需要設計實驗裝備,收集數據,開展多個實驗并傳播研究成果。因此,想要招聘能處理復雜數據人才的企業,在具有物理或社會科學專業教育和工作背景的人群中,更易有所斬獲。有些頂尖的數據科學家是來自生態學、系統物理學等深奧領域的博士,比如,硅谷Intuit(一家為公司提供財務軟件的廠商)的數據科學團隊領頭人喬治· 魯邁利奧蒂斯(George Roumeliotis),就擁有天體物理學博士頭銜。較為意料之中的是,許多現在供職于企業的數據科學家曾接受過計算機科學、數學或是經濟學訓練。數據科學家可以來自于任何一個領域,只要這一領域重點關注數據和運算。
謹記科學家的職業概念非常重要,因為“數據”一詞很容易將研究引入歧途。正如波蒂略所言,“一個人只擁有10~15年前的傳統教育和工作背景,完全不能適應今日所需。”定量分析者也許善于分析數據,但卻不擅長應對一大堆混亂無序的非結構化數據并將其整理為可分析的數據形式。一個數據管理專家或許擅長生成數據、將數據整理為結構化形式,但卻不擅于將非結構化的數據結構化,也不善于對數據進行切實分析。表達能力不那么強的人可以成為傳統數據專家,但卻無法成為數據科學家。數據科學家必須具備這些技能才能發揮作用。
魯邁利奧蒂斯明確說,他在招聘時不會偏重數據或分析能力。他尋找數據科學家的第一步,就是問應聘者能不能用Java之類的主流程序語言開發原型。魯邁利奧蒂斯尋找的對象要擁有一套能力體系,包括堅實的數學、統計學、概率學以及計算機科學基礎,還要有良好的思維習慣。他希望尋找的人具有商業感覺和客戶同理心。他說,他所要求具備的這些能力,都得益于在職培訓和偶爾地講授特定技術的課程。
一些大學正在計劃開設數據科學課程,現有的一些分析課程,比如北卡羅來納州的分析科學碩士項目,正忙于引入大數據的練習和課程。一些企業也在試著培養自己的數據科學家。EMC在收購Greenplum之后,決意將數據科學家的應用作為自身和客戶在大數據開發中的控制性因素。因此,EMC的培訓服務部門開設了數據科學和大數據分析的培訓和認證項目。該項目對員工和客戶同時開放,培養出的一些學員已經在做內部大數據方案。
隨著教育課程的激增,人才輸送渠道也應得到擴展。大數據技術的供應商也在努力提高易用性。同時,一位大數據科學家提出了富有創意地彌合鴻溝的方法。“數據科學伙伴項目”(IDSFP)是由一位高能物理學家杰克·克拉姆卡(Jake Klamka)設計的博士后獎學金項目。該項目從學術界中選取科學家,用6周時間將他們成功打造為數據科學家。項目有來自當地企業(如Facebook、Twitter、谷歌和LinkedIn)的數據專家的理論指導,同時結合大數據的實際問題。起初計劃招生目標是10人,而克拉姆卡最終從超過200個報名者中招收了30人,越來越多的組織正排起長隊想要參與進來。“來自企業的需求異乎尋常得大,”,克拉姆卡說,“他們確實難以找到這方面的優質人才”。
為何愿意在此工作?
雖然數據科學家的地位正在不斷提升,對頂級人才的爭奪仍將非常激烈。滿足招聘要求的候選人在考量工作機會時,往往以對大數據的興趣為導向。一位頂尖數據科學家說,“如果想處理結構化的數據,我們會去華爾街工作”。考慮到如今大多數符合要求的候選人來自非商業領域,招聘經理們也許需要想辦法描繪一個激動人心的前景,強調他們面臨的問題具有帶來突破性進展的可能,以吸引數據科學家的關注。
薪水當然是一個因素。一個出色的數據科學家會面對很多企業拋出的橄欖枝,薪水也隨之水漲船高。一些供職于初創型企業的數據科學家說,他們已經提出甚至得到了一筆龐大的股票期權。即便一些人由于其他原因接受了該職位,薪資依然代表著受尊重的水平和企業對該職位價值回報的預期。但是,我們對數據科學家的心理排序所做的非正式調查卻顯示出一些或許更基礎、也更重要的東西。這群人想要“走上艦橋”—典故來自20世紀60年代電視劇《星際迷航》,電視劇中的艦長詹姆斯·柯克非常依賴于史波克博士提供的數據。數據科學家想要站上浪潮之巔,實時地觀察腳下滾滾而來的機會。
考慮到招聘和留住數據科學家的困難,企業應該思考出一個好的策略吸引他們來做顧問。大多數咨詢公司都還沒有配備大量的數據科學家,即使像埃森哲、德勤和IBM全球服務這樣的“大象”們,也還處在為客戶引入大數據項目的早期階段。他們所擁有的數據科學家的作用,主要用于較常規的定量分析。但Mu Sigma之類的離岸分析服務公司,可能會率先邁出應用大數據科學家的重要一步。
但是本文所討論的數據科學家們想要進行創造,而不僅是給決策者提供建議。有人曾將做顧問稱作是“死亡地帶—你所要做的只是告訴別人數據分析給出的建議”。但通過創造有效的解決方案,他們能夠擁有更多的影響力,并因為成為同行業先驅而彪炳史冊。
關注和培養
權限過少的情況下,數據科學家難有出色表現。他們應該得到進行試驗和探索可能性的自由,也就是說,他們需要與企業其他部門密切聯系。他們最需要與之建立聯系的人應該是負責產品和服務的主管,而不是總攬企業全局的人。正如喬納森·高德曼的故事所告訴我們的,他們為企業創造價值的最好機會不在于寫報告、也不是為高管做演講,而是在與顧客直接相關的產品和流程方面進行創新。
如何找到你需要的數據科學家
1.招聘重點放在那些盛產數據科學家的大學(斯坦福大學、麻省理工學院、加州大學伯克利分校、哈佛大學、卡內基梅隆大學),以及其他一些實力雄厚的大學:北卡羅萊納州立大學、加州大學圣克魯茲分校、馬里蘭大學、華盛頓大學和德州大學奧斯汀分校。
2.瀏覽數據科學工具的興趣小組成員名單,比如R User組(一個受數據科學家們喜愛的統計工具)和Python興趣組(PIGgies),就是搜尋數據科學家的好地方。
3.在LinkedIn上尋找數據科學家——他們幾乎全部聚集于此,你還可以查看他們是否具有你想要的技能。
4.走出去和數據科學家階層廝混在一起。參加數據和Hadoop方面的會議和類似聚會(如今這些會議幾乎每周一次)或是數據科學家們在灣區、波士頓、紐約、華盛頓、倫敦、新加坡和悉尼的非正式會議。
5.結交本地風險投資家,他手中可能握有許多大數據方面的創業計劃書。
6.在Kaggle或者topCoder之類的分析和編碼競賽網站上舉辦一場競賽,跟進聯絡最富創造性的參賽者。
7.別在不會編碼的候選者身上浪費時間,候選人的編碼能力不一定要世界一流,但至少應說得過去。同時你要檢驗候選者是否能快速地學習新技術和方法。
8.確保候選者能夠在數據組中找到線索,并能清晰連貫地表述出其主要數據發現。你應測試一他是否能形象生動地用數字進行交流。
9.小心那些完全脫離商業世界的候選者。當你問他,怎樣用數據工作來解決你的管理問題,他是否會無言以對?
10.詢問候選者最喜歡的數據分析或觀點,以及他們如何保持技術敏銳度。他們是否拿到了斯坦福的在線機器學習課程證書?是否對開源項目有所貢獻?是否在gitHub之類的編程及代碼托管網站建立了可供分享的代碼庫?
并非只有LinkedIn在應用數據科學家來生成產品、特征和增值服務方面的創意。Intuit公司要求數據科學家為小企業客戶和消費者提供觀點,向負責大數據、社交設計和營銷的新任副總裁進行匯報;通用電氣已經在使用數據科學家來優化服務合同、工業產品的維修間隔;谷歌在使用數據科學家來優化自己的核心搜索和廣告服務算法;Zynga使用數據科學家來優化游戲體驗以打造長久客戶紐帶并帶來收入;Netflix創造了著名的Netflix獎,授予開發出了影片推薦最佳方案的企業數據科學家團隊;應試教育公司卡普蘭(Kaplan)使用它的數據科學家來發現有效的學習戰略。
然而,數據科學家們在數據這一快速發展的領域中擁有高超的技能。若讓他們把時間花在與管理人員建立聯系上,會帶來潛在的副作用。他們與同類專家的交流會減少,而他們需要這種交流來保持自身技能和所使用的工具跟得上最尖端的潮流。數據科學家必須接觸公司內外的社會實踐。支持合作與技術分享的新的會議和非正式聯盟正在不斷涌現,企業應當本著“水漲船高”的理念鼓勵科學家參與其中。
面對的期待越多,數據科學家往往越有動力。有時,獲取和組織大數據的挑戰占據了太多時間和精力,使數據科學家難以進行預測和優化復雜分析。然而,如果主管們聲明他們滿足于簡單報告,數據科學家將會奉獻出更多的精力來進行高階分析。大數據不應該被等同于“小數學”。
這十年最熱門的工作
谷歌首席經濟學家哈爾·范里安曾有一句眾所周知的話:“未來10年最炙手可熱的工作將是統計學家。大家以為我在開玩笑,但誰又曾猜到計算機工程師成了20世紀90年代的性感工作呢?”
如果說“性感”意味著需求龐大而又為數稀少的素質,數據科學家已然稱得上“性感”。
數據科學家招聘難、聘用花費高,并且由于市場競爭激烈難以留住他們,因為同時擁有理科、計算機和分析學背景的人實在不多。
如今的數據科學家類似于20世紀八九十年代華爾街的“寬客(Quants 金融數量分析師)”。當時,擁有物理學和數學背景的人紛紛投身于投資銀行和對沖基金,在那里他們能夠設計全新的算法和數據策略。爾后各類大學紛紛開設金融工程學的碩士課程,催生出了更貼合主流企業的第二代人才。隨后的90年代,這一模式在搜索工程師身上重演,他們稀有的技能不久便成了計算機科學課程所教授的內容。
這種模式的存在拋出了一個問題,如果企業坐等第二代數據科學家興起,等到被選者大量增多、更易審核、更易融入團隊時再招入公司,是不是一個更明智的做法?為什么不把尋找和培養特殊人才的麻煩留給其他公司呢?比如初創的大數據公司或者是通用電氣、沃爾瑪之類需要數據科學家來沖鋒陷陣,以實現其激進戰略的公司。
企業若以此為據,會遇到麻煩。因為大數據的發展沒有任何放緩的跡象。在早期,企業如果由于缺乏人才而袖手旁觀,會擔上落后于人的風險,而其他競爭對手和渠道伙伴會獲得幾乎難以估量的競爭優勢。如今,大數據恰如一次洶涌而來的時代浪潮,如果你想抓住它,你需要會沖浪的人。
托馬斯·達文波特是哈佛商學院客座教授、德勤分析部門高級顧問和《判斷力說了算》一書的合著者(哈佛商業評論出版社,2012年)。 D.J.帕蒂爾是格雷洛克風投公司Greylock Partners的數據科學家,之前擔任 LinkedIn的數據產品負責人,同時還是《數據柔術:將數據轉化為產品的藝術》(The Art of Turning Data into Product,出版社:o’Reilly Media,2012年)一書的作者。
- 金融監管的域外適用:為什么外星人回不了家?
- 雪球專刊第196期:2018美股投資必讀
- 程序員大本營(2019年5月)
- 雪球專刊第110期:滾蛋吧,P2P君!!
- 雪球專刊第188期:暴跌如何應對?
- 雪球專刊第186期:2018春節回鄉見聞錄(鄉村篇)
- 證券市場周刊-紅周刊(2016年第33期)
- 精英們為什么不待見特朗普(英國《金融時報》·地鐵大學)
- 雪球專刊227期:“十年如一”2019雪球嘉年華精選合集
- 永續連接(《哈佛商業評論》2019年第5期)
- 雪球專刊228期:阿里香港上市之路
- 成功避開戰略“陷阱”(《哈佛商業評論》增刊)
- 雪球專刊第154期:2017,巴菲特的新啟示
- 雪球專刊第131期:人民幣貶值怎么辦?
- 終結科層制(《哈佛商業評論》2018年第12期)