- AI3.0:人工智能落地的商業邏輯
- 王曉梅
- 7746字
- 2020-10-29 14:20:36
第一節 數據“永動機”
人工智能的發展離不開數據,只要有數據注入,人工智能就如同“永動機”一樣,源源不斷推動人類社會前進。
數據好似普羅米修斯盜取的火種,點燃了人工智能的革命之火。要想深入理解人工智能,需要先理解數據與人工智能的關系。
一切可以從全球知名人工智能學者李飛飛說起。這位華人學者是ImageNet圖像數據集的發起人,在學界聲譽卓著。她的一大關鍵貢獻就是洞悉數據的重要性,并以構建圖像數據集的形式推動了人工智能技術的發展。
2000年,李飛飛在攻讀加州理工學院的博士,研究的是神經科學和計算機科學的交叉領域。她發現一個問題:計算機視覺同行一直研究計算機感知和解碼圖像的模型,但模型總是針對個別具象的物體,比如狗或者貓,識別效果不盡如人意,且模型的應用也有巨大的限制。
李飛飛開始另辟蹊徑。她靈光一現,認為要害也許不在模型而在數據上。比方說,孩子從小觀察無數物體和場景,學習視覺,其中識別貓與狗也是基于重復觀察?;蛟S,計算機可以模擬同樣的學習方式,基于大量圖像的瀏覽進行類似的學習,最終識別出圖像中的具體物體。
顛覆性的想法一出現,李飛飛很興奮,認定數據才是解決問題的方向。她一刻也沒停,開始推進想法落地,但實踐起來卻困難重重。
首先,她需要構建一個完整的標注標準,方便在龐大的數據庫中為每張圖片的物體做標記,避免性別、民族或個人主觀偏見。標注一張照片時,數據標簽要從抽象、概括的描述一直標注到具體、細致的分類,比如,從抽象的“哺乳動物”一直到具體的“星鼻鼴鼠”。
其次,圖片標記的工作量巨大,過程相當乏味。起初,李飛飛給普林斯頓大學的學生每小時10美元的報酬,但是任憑學生們如何加班加點,標注工作依舊進展緩慢。后來,在學生的提醒下,她發現了一個解決問題的好辦法——使用Amazon Mechanical Turk5,聯合全球標注人員參與,成本低、標注速度快。如此一來,工作才明顯提速。
到2009年,李飛飛領導的團隊已經標注了近320萬張圖片,涉及種類繁多。因為她本科就讀于普林斯頓大學,該學校的研究者設計過一種基于認知語言學的英語詞典,取名WordNet,于是李飛飛將這個圖像數據集命名為ImageNet。
現在,ImageNet擁有1500萬張圖片,這不僅僅是一個龐大的數據庫,也提供了一套行業基準的測試標準。不同算法可基于百萬級的圖片各顯能力,以準確率來定量分析算法的有效性。
ImageNet圖像數據集一建立,李飛飛就設法說服了一個計算機視覺比賽的主辦方,請他們使用這個數據庫訓練和檢驗參賽者的算法。主辦方在2010年舉辦的歐洲比賽,便成了載入人工智能發展史的ImageNet大規模圖像識別挑戰賽。
從2010年到2017年,ImageNet挑戰賽的分類錯誤率從28%降到3%以下,只有最初的1/10左右;物體識別的平均準確率從23%升至66%。特別是2012年杰弗里·辛頓引入深度學習算法后,準確率有了大幅的提升。到2015年,計算機視覺在若干細分場景的錯誤率甚至低于人類水平,基本攻克簡單的物體識別問題,開始了大規模產業應用。
李飛飛和ImageNet挑戰賽的貢獻,生動地說明了數據與人工智能的關系。
第一,數據是人工智能第三波浪潮的關鍵。如果不是調整方向,先構建ImageNet這樣的大型數據庫,這一波人工智能的興起時間可能會大大延后。
第二,流行的深度學習算法、驗證與應用,都要基于大量的數據訓練。以計算機視覺為例,所有研究者先在ImageNet數據集中預訓模型已成為全球慣例。
第三,構建適用人工智能的數據庫,有賴于底層繁重的標注工作。杰弗里·辛頓在“一戰”成名,但是若沒有Amazon Mechanical Turk平臺大量無名者的努力,他的算法再精妙,也是無源之水、無本之木。
ImageNet挑戰賽后,李飛飛的研究方向轉向探索視覺關系識別,其核心工作之一依然是構建數據。
2019年,李飛飛團隊又推出Visual Genome(視覺基因)數據集,其中包含10萬張圖像、420萬條圖像描述、180萬個問答對、140萬個帶標簽的物體、150萬條關系及170萬條屬性,其目標就是走出物體本身,關注更多物體對象間的關系識別、語義表征和聯合推理等。比如,將一張照片輸入算法模型中,希望算法可以識別出其中的重點物體,找到所在位置,并且找到物體與物體之間的兩兩關系。
數據標注者是AI革命的無名英雄
20世紀90年代,人工智能的主流方向一度是符號式學習(symbolic learning),數據并沒有貢獻多大價值。客觀地說,當時業界也沒有大量數據可以“滋養”人工智能。進入2000年后,互聯網應用廣泛開展,計算存儲能力大幅提升,大數據才真正出現,并與深度學習技術一起碰撞出新的價值。
ImageNet數據集助力了深度學習的誕生。一開始,數據就與人工智能形成了強互動關系。
深度學習技術的基本原理,就是模擬人類大腦,構建一個由算力支持的神經網絡系統,經由大量的數據訓練,學習識別不同的模式,模仿人類的思維模式進行決策。數據訓練量越大、越豐富,訓練的模型效果越好。
●數據標注
人工智能可識別的數據必須進行標注,唯有如此,人造的神經網絡系統才能“看見”?,F階段,許多公司擁有大量數據,但并非撿起來就能使用人工智能,如果沒有現成的算法模型,就須先過標注這關。
數據標注的全流程,涉及收集、清洗、標注及校驗。數據標注的最基本工作是“畫框”,比如檢測目標是貓,標注員就要將圖上的貓標出來,標注的畫框需要完全覆蓋住貓,并標注體現貓特征的關鍵;如果檢測目標是人,就要標注與人相關的18個關鍵點。
以現在的技術水平,零售、自動駕駛、醫療等各行業要利用人工智能,都要先由人工進行數據標注,才能讓機器在特定場景運用相應數據訓練神經網絡。因此,在專業領域,標注人員要有專業背景。舉例來說,涉及醫療影像數據,標注員需要有醫療背景,能看得懂醫學圖像;涉及地方方言或者外語的智能化應用,標注者就要掌握這門語言。
由于數據標注是人工智能不可或缺的環節,所以標注的類型越來越多,也慢慢形成了一個產業。既有全球平臺級公司搭建開放的數據平臺,如Amazon Mechanical Turk,也有以標注為主業的創業公司,比如CrowdFlower、MightyAI等。目前,全球數據標注從業者超過千萬,分布在中國、印度、馬來西亞、泰國等人力成本低的國家。在中國的河南、貴州等一些內陸省份,數據標注已成為新興產業,漸成規模。
數據標注的興起,加速了人工智能的行業落地。比如,工業質量檢測、設備缺陷檢修等領域,機器得到的訓練日益充分,已開始大幅度替代傳統的人工作業。從起步的ImageNet數據集一直到產業的廣泛引用,人工智能發展的背后都有數據標注者的辛勤貢獻。
因此,我一直認為,數據標注者是人工智能革命的無名英雄。
現階段,訓練數據短缺是全行業遇到的瓶頸。很多視覺的細分類目下,用于訓練的圖片樣本只有幾個或者十幾個;而若是樣本量大,清洗、分析、標注等工作的時間和資金成本又讓企業不堪重負。
●小數據樣本深度學習
為解決因數據短缺而拖累深度學習落地的困境,人工智能研究者也開始創新深度學習的方法,提出“從少量數據中快速推理”的研究方向,以提升機器在少量標記樣本下的學習能力。
就“小數據樣本深度學習”探索,現在有三大前沿研究方向:一次性學習(one shot learning)、元學習(meta learning)和遷移學習(transfer learning)。
這三種學習均起源于人類學習。
人類在看過別人演示一兩次后,就可以觸類旁通,模仿并學會新技能。一次性學習強調機器用之前學到的方法與參數快速學習,避免從頭開始學習所有參數。元學習也稱學會學習(learning to learn),解決“機器學習如何學習”的問題,最終希望機器與人類一樣,以少量樣本就能迅速完成學習。
另外重要的一點是,小數據樣本深度學習的技術方向是可以成立的。以兒童的學習過程為例,在簡單教導后,小孩看到兩三次某個物體后,就會自動識別且不會忘記。那么,經過大量標注數據的訓練后,機器擁有的智能理論上也可以存儲與延續。當其看到新的小數據樣本時,就可以憑借過往積累的智能快速學習了。
●建立可解釋AI
現階段人工智能機器學習領域的主要研究方向是監督學習(supervised learning)、無監督學習(unsupervised learning)和強化學習(reinforcement learning)。研究人員正努力讓人工智能可以不依賴人類訓練,自己“觀察”世界如何運轉,并學會分析,建立洞察力,建立生成模型(generative models),通過真正了解世界來生成新的數據,創造新的世界。
目前機器學習中最為重要的深度學習技術,還沒有能夠完全超越模式識別,模型的可解釋性很差。比如,基于模型訓練,深度學習可以從醫學影像素材中發現癌癥跡象,卻無法解釋為什么特定的圖像模式可能存在病變。未來人工智能的研究方向必將重新引入邏輯推理演繹,人工智能不僅要給出問題的答案,還要展現解決問題的方案。
以大數據為基礎的深度學習經過七八年的發展,在處理相關性的問題上頗有優勢,而在處理因果關系方面進展有限,已進入瓶頸期。
深度學習技術三巨頭之一、圖靈獎得主約書亞·本吉奧(Yoshua Bengio)認為,除非深度學習能夠超越模式識別,并真正掌握因果關系,否則不可能發揮全部潛力。也就是說,深度學習需要了解“為什么”。
只有了解到因果關系后,人工智能才可以擁有人一樣的思考力和智能度,也能更好理解人類的目標指令,進入更高一層的創新境界。
2019年,約書亞·本吉奧帶領的研究團隊創建出一套數據集,以概率形式描述真實世界現象之間的因果關系,如吸煙與肺癌的關系。以此為基礎,團隊又創建出了直接包含因果關系的多套綜合數據集,且同步開發出一種能夠識別簡單因果關系的深度學習新方法。
即便是對新技術方向的探索,基礎工作終究離不開數據。
行業落地,重要的是“相關數據”
基于數據的重要性,我一直主張,大數據和人工智能是同一價值鏈中的要素,無論是大數據還是小數據,行業落地應用中重要的是“相關數據”,而不是“大而全”的數據。
2009年開始,“大數據”成為科技行業的流行概念。其實,數據自古至今都是存在的,書籍的文字內容是數據,圖片和視頻是數據,一件文物的年代、尺寸和材料是數據,甚至人們的動作和行為也可以是數據。在很長的時間里,數據的記錄和存儲手段非常有限,比如,早期有甲骨和石刻,漢朝才出現紙張。這限制了數據的積累。
計算機出現后,數據開始電子化,存儲成本越來越低。特別是進入互聯網時代后,瀏覽搜索、網絡社交、電子商務、游戲娛樂等用戶行為產生大量數據,且互聯網也能實時記錄、保存和追蹤這些數據,積累海量數據,這才有了大數據時代。大數據的四個特性可以簡單概括為四個V:volume(大量性)、variety(多樣性)、velocity(及時性)和veracity(真實性)。
大數據的產生,驅動了新的研究方法。利用大型計算機網絡,數據從收集、存儲、清洗、分析到應用,可以盡可能完整地還原特定對象的行為軌跡,以更大的樣本量和更細的顆粒度進行分析。而過去只能用抽樣方法進行分析,往往因取樣偏差或者樣本量不足產生錯誤的結論。
流媒體公司奈飛(Netflix)就利用大數據的優勢取得了成功。2013年,奈飛上線熱門劇集《紙牌屋》,其內容選擇、劇情設計都歸功于基于大數據的社交媒體分析。奈飛掌握了很多社交媒體的數據:它了解用戶更喜歡看何種類型的內容,怎樣的片段會選擇重看,什么樣的演員更受他們喜愛。這些全面的信息,對內容生產和運營的作用不言而喻。相較傳統的通過收視率、票房或用戶調研得出的結果,通過大數據所得出的準確性高出很多。
●找到“強相關數據”
用戶源源不斷地產生數據,目前對于企業來說,數據的收集和存儲能力并不構成障礙。癥結在于,90%的數據沒有被真正利用起來,成了“廢數據”。
主觀上,這與機構的數據思維文化有關,并不是所有公司都能像奈飛、亞馬遜那樣推崇用數據說話;客觀上,則與數據的相關度有關,比如一名用戶10年前的互聯網數據,對于分析當下或預測未來并沒有太多的作用,時間序列上的弱相關度,大大減弱了數據的效力。
人工智能要落地行業,數據量大固然好,但更重要的是相關度要高,而不是簡單的大而全。兵法上講,“傷其十指不如斷其一指”,大數據是一樣的道理,要用力在關鍵的“一指”上,不必追求“十指”面面俱到。
相關數據,特別要強調與特定場景的相關度?,F在,人工智能的應用針對的是某個具體任務或具體目標,需要的數據類型不盡相同。比如,傳媒、金融、醫療等各行業需要的細分數據不同,具體到同一行業的子領域也不同。比如,在醫療領域,心血管疾病和癌癥診斷所要的細分數據就不一樣。
大部分人工智能的應用場景,都是針對一個具體的任務。比如,個人信貸鑒別申請者的信用風險,餐飲外賣確定最優的派送路線,資訊信息流做精準的個性化推薦……具體的場景中,起作用的主要是相關度高的數據。不同的數據種類,根據相關度來看也是“親疏有別”。同樣是信用無抵押借款,支付寶“花唄”可調電商交易數據,微信“微粒貸”能用微信社交數據。一般而言,交易數據的相關度會高于社交數據。
●重視小數據
以我過去合作的眾多客戶項目來看,由于目前的人工智能大都以完成特定任務為主,尚未出現通用型的人工智能,也沒有無所不能的人工智能。相對大數據來說,能直接用起來的相關數據,往往是一種特定的小數據。
這里的小數據,指的是使用場景單一、對應算法簡單、及時性較高、數量規模較少的數據。只要采集、存儲、處理小數據集,就可以在商業應用中落地,產生作用,比如奈飛的打分數據。著名的AlphaGo,它的主要用途就是下圍棋,其核心數據是過往對弈的棋譜數據。這些棋譜數據就是小數據。
可以說,大數據是宏觀、全面的分析,小數據則是針對特定任務的具體分析?,F階段真正好用的其實是小數據。因此,我一直認為,人工智能不是大公司的專利,中小企業只要有意識地采集垂直領域的小數據,就有機會用好人工智能。
同樣以奈飛為例。1997年,它以DVD在線出租起家,還沒有那么強的數據能力,幸運的是,它早年就上線了用戶打分功能。2007年,奈飛推出流媒體業務“Watch Now”(立即觀看)的時候已經積累了20億條用戶打分數據。通過這些數據,就能夠非常容易了解用戶對內容的偏好。這個打分數據就是小數據,維度很單一,卻非常契合奈飛的業務場景,對內容決策非常有用。
無論大數據還是小數據,歸根到底,有價值的才是好數據。大數據和人工智能是同一價值鏈中的要素,激活價值鏈,讓有用的數據動起來,就能驅動業務,進而在特定的場景中驅動價值。
當然,在大數據時代,小數據的內涵也會發生延展。比如,圍繞個體的全方位數據更加重要。這里的“個體”不只是自然人的個體,也包括社會組織,如商店、企業、社會團體等。掌握全方位的個體數據,一個直接的好處就是可以精準推送個性化服務。
中國的互聯網巨頭們利用自身強勢業務,以兼并收購、生態投資等各種方式,建立了龐大的To C(對消費者)業態,能夠介入一個獨立個體的消費、社交、信貸、娛樂、資訊等方方面面,方便獲取個體的全方位數據。在人工智能時代,這種數據優勢正轉為巨大的競爭優勢。
AI的競爭最終是數據的競爭
人工智能是算法、算力和數據三位一體,缺一不可,三者在產業競爭中的地位不盡相同。算法可以共享,比如在谷歌的TensorFlow、百度的飛槳(PaddlePaddle)平臺上,開發者都能調用各種算法;算力可以采購,只要資金實力充裕,廠商可以尋找合適的設備商或者解決方案供應商,搭建大規模Docker6集群或者GPU集群。
隨著互聯網、開源、云計算等技術的發展,企業在技術上會越來越接近。不久的將來,超級摩爾定律下芯片計算力會有更大突破,人工智能作為一種技術能力將越來越普及,長期來看,技術能力上的差異會越來越小。在行業應用上,真正能建構牢固“護城河”的核心要素一定落在數據上。
我相信,未來3~5年,人工智能的競爭將會圍繞數據展開。
那么,數據又從哪些維度展開競爭呢?
我認為,這場競爭會主要圍繞著以下三點:
第一,數據的品質。比如數據的準確性、完整性、可追溯性、持續性、真實性和共享性。這些品質決定著人工智能模型的質量,也決定最終的落地成果。
第二,數據競爭存在先發優勢。那些占據著特定的應用場景,并且更早、更多地獲取數據的領域,人工智能的優勢會更明顯。
第三,數據的安全和隱私保護,決定了人工智能應用最終可以走多遠。
●數據品質
數據的品質在某種程度上會決定算法的準確性。并且,以同樣的初始算法起步,數據品質不同,篩選與迭代出最佳算法需要花費的時間不同。
針對特定領域的數據集越龐大、越真實、越準確、越可追溯、維度越豐富、越協同共享,越能得出最佳算法并帶來競爭優勢。
比如,在奈飛的網站上,圍繞用戶的維度,有性別、年齡、瀏覽過的電影、喜歡的明星、過往閱覽記錄等;圍繞某個電影的維度,有年代、導演、演員、風格、題材、用戶評價等。圍繞兩個主體的數據維度越豐富,越能在兩者間建立精準匹配的關系,讓企業以更好的體驗擴大用戶群,不斷強化自己的優勢。
我們看到,App(應用程序)的用戶規模越大,往往越能更精準地滿足個性化體驗。比如,現在我們使用的一些音樂App已經能夠精洞悉每個用戶喜歡的音樂風格,并準確推送喜歡的音樂。
對如何提升數據品質,企業可以在兩方面同時努力。在內部,要有系統的規劃,實時采集和整理數據,建立長期數據積累;在外部,要有意識地構建生態體系或者尋找合作伙伴,盡可能多地獲得相關數據,且搭建統一架構,幫助數據互通。
●數據的先發優勢
數據競爭一定存在先發優勢。企業越是占據特定的場景,更早、更多地獲取數據,人工智能的優勢就越明顯。
現在,數據尚未全面商品化,企業與企業之間的數據交換尚未暢通。由于市場的復雜和競爭、數據安全和監管等原因,企業或機構不敢輕易開放數據,企業或機構需要通過自己的產品和生態體系來獲得更多數據。從這個角度看,平臺型科技公司基于自己強大的數據基因,占有完全優勢。
長期來看,數據是可以創造收益的資產,是公司的核心競爭力,越早入局規劃,越能占據主動。未來數據全面商品化之后,價值會非常明顯。
●數據安全和隱私保護
作為未來企業的核心資產,數據的安全性一樣重要。大數據時代,一旦丟失數據,損失也是巨大的。
數據安全有兩層含義:一是保證用戶數據不損壞、不丟失,這種情況發生的概率不大,數據存儲在云端也安全得多;二是保證數據不泄露或者濫用,這是主要的關注點。
無論在電子商務、航空旅行、金融借貸還是醫療行業,全球已發生多起數據泄露的事件,引發公眾的憤慨。2017年,單是美國征信企業艾可菲(Equifax)一家公司的信息泄露,就涉及多達1.43億人的姓名、住址、出生日期、社會保障號和駕照等敏感信息。
人們不可能縱容自己的數據隱私被侵犯。任由信息泄露和濫用,公司會陷入輿論的漩渦,商業發展的困境最終會阻礙人工智能的發展。對數據安全和個人隱私的保護程度,決定了人工智能可以走多遠。
國外若干代表性的法律法規也已出臺,比如2018年生效的歐盟《通用數據保護條例》(GDPR),2020年1月生效的《2018年加州消費者隱私法案》(CCPA),這些立法正給商業運營和人工智能帶來巨大影響。
2020年7月,全國人大常委會法制工作委員會在中國人大網公布了《中華人民共和國數據安全法(草案)》,并向社會大眾征求意見,這會進一步規范行業內的行為和競爭。