- 2017年HBR精選必讀(《哈佛商業評論》增刊)
- 哈佛商業評論
- 7350字
- 2021-04-09 20:51:44
技術對于商業影響加深
走進Facebook人工智能研究實驗室
INSIDE FACEBOOK’S AI WORKSHOP
史考特·貝瑞納托( Scott Berinato) | 文
在這家社交網絡巨頭中,機器學習已經成為平臺的平臺。

我們走進Facebook寬敞的20號樓,便看到雷文斯伍德泥沼的全貌。穿過大廳,還可以隱隱聞到廚房傳來熱騰騰早餐、奶昔和醇厚咖啡的香氣。會議室Lollapalooza就在大廳和廚房之間,華金·坎德拉(Joaquin Candela)正試圖在這小房間中向我這個外行人解釋人工智能。
坎德拉有些謝頂,矮小壯實,默默思考著。他負責管理Facebook最重要的AI部門——應用機器學習(AML),其團隊正逐漸成為整家公司最核心部分。他組織了一下語言,終于開口:
“機器學習算法實際上就是一張查找表,對吧?圖像這樣的輸入信息是關鍵,而價值就在這類信息的標簽中,比如‘馬’。我會有大量訓練實例,比如馬的圖片。我盡可能給算法最多信息。‘這張圖是馬。這張圖是馬。這張圖不是馬。這張圖不是馬。’算法將這些信息保存在查找表里。之后要是有新實例出現,或者我告訴算法注意新實例,那么算法會查看我們給它的所有實例——查找表中哪一排最像?哪里像?算法試圖決定:‘這張圖是馬嗎?我認為是。’如果算法對了,圖像就被分到‘這張圖是馬’組;如果錯了,圖案會被分到‘這張圖不是馬’組。下次算法就可以查找更多數據了。”
“挑戰之一是我們如何決定,新圖片和查找表中數據的相似程度。機器學習的一部分就是學習相似性函數。另一項挑戰是,查找表內容過多時,會發生什么情況。每查看一張圖像,你都要做無數次對比。所以機器學習的另一部分是,用計算功能給存儲大量數據的查找表取近似值,而非一張一張瀏覽所有圖像。計算功能知道如何粗略估計價值。這就是ML的本質——用計算功能給巨型查找表取近似值。學習就是這樣。”
人工智能肯定不止于此,但用這段話做AI討論的開場白再恰當不過,因為這樣解釋AI聽上去很真實,甚至有些無聊,或者說機械化。現在關于AI的談話都將其威力神化,對其近乎神奇的能力膜拜不已。的確,AI極其強大,但并非魔法。它也有局限。坎德拉在演講中喜歡給大家看一張將魔法師和工廠圖片放在一起的幻燈片。他告訴我們,Facebook認為AI更像工廠,因為“魔法師不能擴張規模”。
而這就是Facebook在AI和機器學習領域采取的行動:以驚人的速度擴張。幾年前Facebook只有幾個機器學習團隊,要用好幾天時間才能完成一項實驗。但坎德拉告訴我們,現在公司每天有幾百個員工進行數千次實驗。AI嵌入平臺的方式過于復雜,產品(你的推送信息、聊天,還有孩子的Instagram小號)與算法已經融為一體。用戶看到的界面和活動幾乎都在AI和機器學習的眼皮底下。
了解Facebook費盡心思部署AI的做法和原因,對準備投資算法的組織來說大有裨益。人們很可能認為Facebook資源豐富,只要雇用最優人才,寫出最好的算法,就能鎖定勝局。但坎德拉沒有這么做。Facebook當然人才濟濟,算法也很先進——有的可以“看見”圖像或自動對圖像進行濾波處理;有的理解對話并做出回應;有的能翻譯不同語言;還有的可以預測客戶偏好和購買行為。
但在某些方面,算法并非坎德拉的主要關注點。他一直都忙于創建AI工作室,讓公司每個人都能用AI達成自己的目標。可以說,坎德拉建立了Facebook平臺的AI平臺。不管你是造詣頗深的程序員,還是一竅不通的新手,你都可以使用他的產品。
以下是他的做法以及可借鑒之處。
聯盟號
坎德拉曾是資深微軟研究員,2012年加入Facebook廣告部。他和幾個員工接管了一個優化廣告用戶定位的算法。
坎德拉將他接手的機器學習編碼形容為“穩定,但不夠先進”。他不只一次將之比作20世紀60年代的蘇聯聯盟號飛船——簡單,但可靠;即便不是最先進、最好的飛船,也能順利完成任務。“它能帶你完成任務,不是當前最先進的卷積神經網絡。”
你可能會以為坎德拉著手做的第一件事就是將算法升級,或者說為了航天飛機放棄聯盟號,但事實并非如此。“我做以下三件事,可以獲得更多價值。”他說,“改進算法本身,提高精密度;給算法更多數據,提升現有編碼表現;加快實驗速度,快速獲得結果。”
“我們關注數據和速度,而非更好的算法。”
坎德拉將這一決定描述為“重大”而又“艱難”。他獎勵創造新算法和改進既有算法的計算機科學家,特別是使用學術理念的專家。新的目標是優化統計模型。被期刊引用,讓你的同事驚艷,這些都可以證明你的價值。
工程師必須轉變思維模式,才能將注意力放在商業影響上,而非優化統計模型。坎德拉認為,很多公司只注重創建最優算法,或雇用自稱能創建最優算法的開發人員,但這是很多AI開發人員的思路,所以這些公司其實犯了大錯。
對公司而言,提高公司業績的好算法比先進的統計模型更有價值。如坎德拉所言,算法真正的突破性進步很罕見,最多一年兩到三次。如果他的團隊將精力放在改進算法上,就要花大力氣保持盈利。
他再三強調以下這幾點:先明白公司會受到什么影響,你正在解決什么問題,需要應對什么商業挑戰。“你可能在尋找最耀眼的算法,和帶來最先進算法的人才。但實際上你應該尋找著迷于算法實際應用的人才。我發現當前很多談話中都缺少這樣的洞見。我和我們的機器學習特聘專家曾在辦公室里聊天,談到不同類型的AI從業者。他說:“沒人真心覺得自己的算法很好或怎么樣。”于是我想,也許算法也就還好。
“我不是說,別在算法上花心思。我的意思是,給算法更多更好的數據,然后快速實驗,這樣才有意義。”
所以坎德拉并不覺得成功就是創造最好的自然語言處理算法。他將成功定義為創建幫助用戶尋找餐館的算法,這樣他們就不必問朋友:“附近有什么好吃的呢?”用戶的興奮點不是,計算機視覺算法可能即將擁有像素近乎完美的物體識別能力,而是AI注意到你發了很多海灘照,還能幫你買套游泳衣。
坎德拉的策略開始在Facebook見效。廣告收入提高,他的聲望也水漲船高。我們在談話中提到,AML似乎成為了Facebook最集權化的部門。但坎德拉并不認同,而且兩次反駁。“我擔心人們會以為,‘只要邁出第一步,成功就指日可待。’”僅僅創造了一些人工智能應用,就希望人們看到AI價值并普及AI,未免太異想天開。
但他確實選擇有利時機,采取了行動。他和信息推送團隊合作,但拒絕了其他很多團隊。之后他與Messenger團隊展開合作。他的團隊壯大,和其他團隊一起承擔了更多項目。
到了2015年,坎德拉發現,團隊需要集權化,所以他開始思考如何創建集權化團隊。他依然擔心“只要邁出第一步,成功就指日可待”的心態,但他不太關心團隊結構了,而是更注重讓團隊與Facebook其他部分有所連接。“你建立一家制造優質部件的工廠,但忘了設計工廠對外的渠道?”他笑了,“那你好好造部件吧。”
直到那時,坎德拉才想起來升級一些算法,而當時他到Facebook已經有3年之久了。(順便說一下,即便到今天,與國際空間站對接的緊急逃離飛船依舊是聯盟號。)
H2
坎德拉走到白板前,介紹他建立Facebook內部AI工廠的過程。他說,關鍵在于找到AI適合哪種產品開發路線。他隨后畫了張和本頁右上角圖表類似的圖形(見邊欄《AI在Facebook中所屬部門》)。
研發和科學部門的工作領域是H3,即階段3或產品開發前的3年。研究AI的數據科學家往往認為自己從事H3的工作,比如改進算法、尋找機器學習新方式。坎德拉沒讓團隊介入H3,原因上文已提到——H3還未涉及業務層面。H1是產品交付階段,由產品團隊(信息推送、Instagram和廣告團隊)負責。AI也不在這一領域,因為產品深度開發后再添加新功能,難度太大——這就像制造汽車時車已經開始組建了,才決定添加自動駕駛功能。
因此介于科學和產品之間的H2就是AML的領域。AML是將科學轉化為產品的部門,其研究方向不受研究人員左右,也不負責產品生產和運輸。AML把控產品逐漸成熟的階段,所以工作環境充滿變數。坎德拉這樣評價H2:“這里必須讓你感到不安。你必須雇用能夠適應H2環境的人,他們必須能忘我工作。因為工作成功的話,你就會拖延時間。你需要一定比例的失敗。我可以接受50%的失敗率。”
如果團隊失敗次數少了,坎德拉會懷疑成員有意規避風險,或者回到了H1產品的思維模式中。“可能我們就這樣順利完成了工作,但我們依舊是失敗的,因為應該是產品團隊做這項工作,而不是我們。如果廣告團隊必須使用你的技術創造價值,那就給他們技術,然后產品出品前,在機器學習領域發力。”
所以坎德拉團隊并未創造能夠為其贏得美譽的新統計模型或新產品。他建立的工廠培養將科學轉化為產品的專家,而且他們的失敗率高達50%。
應用機器學習

雙擊可看大圖
擴張或拉攏
話雖如此,H3、H2和H1三大領域之間界限并不清晰。在有些情況下,坎德拉團隊也在解決一些問題時,關注機器學習科學領域,而有時這樣做的確會幫助到產品開發。
AML剛成立時跨領域作業的確對產品開發頗有助益,因為這一行很多人還未接觸過AI,也沒有見識過AI的能力。比如有一次AML創建一個翻譯算法。團隊進入研究領域,查看既有算法的作業方式及改進方法,因為他們覺得與其翻譯出不合邏輯或意義完全不對的語句,還不如一開始就不翻譯了。
“起初更多是我們向其他領域擴張,而且我們這邊主動權更大。”坎德拉說,“但方式比較溫和。我們不會越界給其他團隊分派任務,比如告訴產品團隊:‘這個不錯,你們用吧。’”但坎德拉團隊會參與一些產品編碼的撰寫。除了本身核心職能之外,他們也參與一小部分科學和產品領域的工作,目的是讓產品團隊成員了解到AML為其提供的服務。
這兩個團隊創建的產品——將社區網頁即時翻譯成多種語言的軟件,取得了成功。其他項目也采取擴張方式,現在Facebook的國際團隊和其他產品小組還拉攏AML,希望在自身產品中使用AML的編碼。
“現在的運作方式并非我所愿。”坎德拉說,“我希望公司所有產品負責人每季度都聚在一起聽取AI報告。將來肯定會有這一天。過去兩年的對話方式現在已經完全改變。比如現在我從本座大樓的前門走到后門,遇到視頻團隊或Messenger團隊的話,他們會攔住我說:‘嗨,真開心我們試了你們的編碼。我們可以圍繞這個創建產品。’這種對話在以前從未出現過。”
但AML的成功也帶來了前所未有的挑戰:既然每個人都想和AML合作,那坎德拉的工廠就必須擴張。
夾心蛋糕
擴張不意味著對每個項目都有求必應,或為完工合并工程。所以坎德拉換了其他組織方式。首先他根據團隊成員負責的AI工作類型,將團隊分成多個小組。
這些小組還保留共有屬性,所以不同小組(比如計算機視覺)可以使用任一機器學習應用軟件進行圖片解析,還能重復使用自己的成果。
接下來坎德拉開始進行大規模工程建設,即建立Facebook自己的AI支柱——FBLearner Flow。這個系統中的算法可供任何人重復使用。耗時的實驗設計和執行流程實現自動化;過去的成果得到保存、可重復使用,且容易搜索。系統搭載的硬件設備充足完善,所以很多實驗可同時進行,而且每秒可進行600多萬次預測。以上進步將從數據和規模兩方面加快實驗速率。
系統還考慮到不同類型潛在用戶的需求。坎德拉認為,要想讓AI加入工作,并實現進一步擴張,他必須幫助AML之外的人自主工作。于是他創造了所謂的人工智能“夾心蛋糕”。
最底層蛋糕主要與AML的工作相關:優化核心系統(注重性能提升,特別是移動端的表現),與機器學習算法合作。上層蛋糕聚焦工具,旨在讓AML外的人自主使用AML的算法。“你給用戶呈現的界面才是工作的重中之重。”坎德拉說。有時他會為AML外的開發人員創建系統,輔助他們建立并運行自己的模型。
社推
我們可以用一些AI的例子,來闡釋坎德拉團隊結構和擴張/拉攏的動態平衡。這些AI基于你輸入的信息顯示相應內容。自然語言機器學習團隊創建了理解會話型輸入信息的系統。
該智能最先介入Messenger的聊天客戶端。AML負責開發模型,而產品團隊創建使用案例和“意圖”——系統所學任務類型的術語。舉例來說,訓練自然語言AI識別“我在尋找最好的……”等語句并做出正確回應,就是所謂的“意圖”。
最開始創建的幾個“意圖”以M Suggestions的形式出現在Messenger中。
如果你給好友發起會話,說“我們30分鐘后見”,M Suggestions可能提示你租輛車。
意圖創建模型的工具不斷改進,產品團隊漸漸可以熟練使用這些工具,這時AML的作用就小了。現在Messenger團隊已經自主創建了多個意圖,進一步完善了M Suggestions。
但這類自然語言人工智能并非只為聊天而創建,也可用于其他情景。該AI編碼是CLUE,即“會話型學習理解系統”,現在已經嵌入更多Facebook應用軟件,比如狀態更新和信息推送。社會化推薦,或者說社推(social rex,現在普遍的說法)明顯開始受AI驅動。如果你輸入“我正在去奧馬哈的路上,希望在市中心吃到美味牛排”,AI可能像朋友一樣,給你的帖子寫留言,列出幾家牛排館,并標注出這些餐館到市中心的距離。若你的朋友回復你“市中心也有好吃的素菜館”,算法也會回復一些相關數據。
社推意圖還必須在AML輔助下創建,但最終目標是擺脫坎德拉團隊,實現自主制作,比如M Suggestions的成功。
AML的主要宗旨也是讓產品團隊自主使用AI。“我們教你釣魚,”坎德拉說,“你就去釣魚,然后我們再準備下一件事——造一艘漁船。等到你開始用漁船,我們就要建罐頭食品廠了。”
當時大概70%的AI支柱建設工作由坎德拉團隊之外的人完成,而與AI的深度連接是成功實現這一比例的原因之一。沒有開發背景的人有時也可在Lumos工具的輔助下使用機器學習。
騎馬和麥片盒
Lumos是計算機視覺AI,可以查找Facebook、Instagram和其他平臺上的照片并了解其內容。你可以訓練Lumos“看見”任意事物。它協助自動搜查、禁止網絡黃色暴力內容、IP侵權(品牌和標識使用不當)和其他負面內容,也能基于你上傳的照片,幫助判斷你的偏好,從而驅動個性化廣告推廣和推薦。
我在Facebook的樣片中看到幾個工程師選擇把“騎馬”當作意圖,或者說我們將要尋找的事物。界面很簡單:點擊幾下,再填幾張表——你在尋找什么?你想查看多少數據?然后算法開始尋找騎馬的圖片。縮略圖逐漸鋪滿頁面。
算法之前搜索過騎馬,所以已經很擅長尋找對應圖片。我估計彈出的80%以上圖片顯示的是騎馬,而事實也如此。圖片中騎馬的姿勢各不相同,有的是靜態照,有的是馬抬前蹄或跳躍障礙。算法找到圖形和圖形之間的分界線,基于之前所學,判斷這些線條交匯處的意義。它知道哪種像素組合可能是人或是馬,也知道“看到”人和馬在一起,而且人在馬上面時,就找到了騎馬的圖片。
我們還找了一些和騎馬無關的圖片——人站在馬旁邊或人騎著騾子,將這些照片標記為不匹配圖片,并加上紅色邊框,避免混淆。算法“記住”這些信息,或者說將信息添加到查找表中供下次使用。頁面上方簡單的圖表顯示算法多次查找后的準確度和可靠度。圖表往往呈現出一條S曲線——算法開始學習較慢,之后迅速提升,再往后準確度提升減緩。此時算法已經很擅長識別騎馬照片了。
解析其他有潛在價值的照片對算法來說難度較大。“證據”不容易推斷出,因為在計算機看來,這些圖形和普通編碼區別不大,但還是有一些有趣的應用軟件幫助AI識別并“閱讀”證據。工程師表示,算法經常弄混保齡球場和自動扶梯,因為兩者有很多相似圖形和視覺特點。
我問:“像‘食物’這樣的東西怎樣識別呢?”于是我們又聊到了機器學習的另一重要課題:它只能表現出訓練后該有的水平。
我們選擇訓練AI識別食物。我們看了很多水果和蔬菜的圖片,還有餐館的盤子。所有食物,甚至還有麥片盒,但這是食物嗎?
答案模棱兩可。但麥片盒里確實有食物。我們買麥片時買的是食物,而非盒子。如果我問,櫥柜里還有食物嗎,你不會說:“沒有,只有一個麥片盒。”另一個更貼合Facebook情況的例子是,如果我上傳一張麥片盒的圖片,AI會以為我上傳的是食物圖片,還是盒子圖片?從數據的角度看,這是盒子的照片。
那么我們將這次分類歸為匹配還是不匹配呢?以下是機器學習原理的部分解釋。訓練算法時,你必須明確定義各個類別。食物從某些方面看太籠統,算法要不然看錯圖片,要不然就看得不準,因為它很難知道,我們所謂的“給我看食物圖片”究竟是什么意思。“蔬菜”更適合訓練算法,而且在訓練時,每個人都必須用同樣的方式定義所有詞匯。假設兩個人一起訓練算法,如果其中一個人總將麥片盒標記為食物,而另一個人標記為非食物。現在你想象一下這件事發生在幾太字節(TB)的視覺數據上會怎樣?
同理可用于自然語言處理。人類擅長在情境下解釋文本,找到深層次含義。比如我可能打出以下一行字:“我真喜歡超級英雄的電影。真的好有創意啊!我希望他們還能制作出100多部這樣的電影。”了解我,也懂調侃的朋友可能很快就知道我表述的其實是完全相反的意思。但人工智能仍在學習如何分辨這種信息的含義。要判斷我是否在說諷刺話,它必須深入了解背景,不能僅限于學習分析語法和詞匯。它必須看到我說過和在網上貼出的信息,并找到其他相關線索來判斷我是否真的喜歡這類電影,想再看100多部,還是我實際上討厭看這電影。它們不能判斷失誤,因為這類錯誤不利于平臺建立和用戶的親密關系。如果我只是在調侃,但平臺推送給我的信息開始大量出現超級英雄電影的廣告,我可能并不享受這種體驗。
并非魔法
類似的細節說明了AI的局限所在、人類在AI訓練中所扮演的重要角色,以及為何解決問題和創造價值比找到先進模型更重要。采訪那天天色已經很晚了,坎德拉還在思考著這些問題,同時討論著AI現在被神化的地位。他指出,把AI看作靈丹妙藥的人太懶,沒有批判性地看待AI。
“讓我困惑不解的是,”他說,“每個人都知道統計學家和數據分析師的工作。如果我想知道‘不同年齡段的行為方式’,我就去問數據分析師。”
“所以每當有人跳過這一步,直接找到我們,稱‘給我一個機器學習算法做我們想做的事’,我就會覺得‘我對你們來說算什么?你們想要解決什么問題?目標是什么?權衡取舍是什么?’有時他們還驚訝于為什么會有權衡取舍。“如果對方沒有準備好以上問題的答案,我就會想:‘你到底以為AI是個啥?’”
他們以為AI是魔法。
“但AI并非魔法。這就是我要告訴人們的信息。‘你不需要機器學習。你須建立數據科學團隊,幫助你全盤考慮問題并進行有效測試。和他們坐在一起,看看你的數據。如果你不知道周圍發生了什么,沒有任何感知,也不能創建簡單、有規則的系統(比如針對住在本地區的20歲以下青年,做以下事情),如果你都做不到,那么即便只是和你談談如何用AI解決問題,我都深感憂慮。”
“有些高管找到我時并不是想要主動了解技術,他們會先談到自己深入思考過的問題,我覺得這樣很好。只要有正確數據,簡單可靠、基于規則的系統往往可以幫助你解決80%的問題。”
“猜猜看這樣的系統將有什么優點?——每個人都能理解它。我們要先耗盡人類腦細胞。”
史考特·貝瑞納托是《哈佛商業評論》英文版高級編輯,也是《好圖表:讓數據可視化更智能并有說服力的HBR指南》(Good Charts: The HBR Guide to Making Smarter, More Persuasive Data Visualizations,2016年出版)一書作者。
- 養老革命(《商界》2021年第1期)
- 拒絕成為愚蠢的老好人,要做聰明的“給予者”(《哈佛商業評論》增刊)
- 銀發經濟與養老金融(《北大金融評論》2022年第1期)
- 雪球專刊第198期:投資“抄作業”指南
- 中國企業家(2016年第02期)
- 比較(總第80輯)
- 第一財經YiMagazine(2019年第1期)
- 證券市場周刊-紅周刊(2016年第04期)
- IPO保薦“暗雷”(證券市場紅周刊2021年38期)
- 垂直創業時代(《商界》2017年第10期)
- “新材料之王”石墨烯的那些事兒
- 中國企業家年刊·增刊(2015商業宏寶書)
- 證券市場周刊-紅周刊(2016年第22期)
- 雪球專刊第149期:不賺白不賺:小白“撿錢”指南
- 如何用內容重構營銷(《商界》2016年第10期)