官术网_书友最值得收藏!

第三章
人工智能的現在與未來

時至今日,人工智能的發展已經突破了一定的“閾值”。與前幾次的熱潮相比,這一次的人工智能來得更“實在”,這種“實在”體現在不同垂直領域的性能提升、效率優化。計算機視覺、語音識別、自然語言處理的準確率都已不再停留在“過家家”的水平,應用場景也不再只是一個新奇的“玩具”,而是逐漸在真實的商業世界中扮演起重要的支持角色。

語音處理

一個完整的語音處理系統,包括前端的信號處理、中間的語音語義識別和對話管理(更多涉及自然語言處理),以及后期的語音合成。總體來說,隨著語音技術的快速發展,之前的限定條件正在不斷減少:包括從小詞匯量到大詞匯量再到超大詞匯量;從限定語境到彈性語境再到任意語境;從安靜環境到近場環境再到遠場嘈雜環境;從朗讀環境到口語環境再到任意對話環境;從單語種到多語種再到多語種混雜,這給語音處理提出了更高的要求。

語音的前端處理涵蓋幾個模塊。說話人聲檢測:有效地檢測說話人聲開始和結束時刻,區分說話人聲與背景聲;回聲消除:當音箱在播放音樂時,為了不暫停音樂而進行有效的語音識別,需要消除來自揚聲器的音樂干擾;喚醒詞識別:人類與機器交流的觸發方式,就像日常生活中需要與其他人說話時,你會先喊一下那個人的名字;麥克風陣列處理:對聲源進行定位,增強說話人方向的信號、抑制其他方向的噪音信號;語音增強:對說話人語音區域進一步增強、環境噪聲區域進一步抑制,有效降低遠場語音的衰減。除了手持設備是近場交互外,其他許多場景——車載、智能家居等——都是遠場環境。在遠場環境下,聲音傳達到麥克風時會衰減得非常厲害,導致一些在近場環境下不值一提的問題被顯著放大。這就需要前端處理技術能夠克服噪聲、混響、回聲等問題,較好地實現遠場拾音;同時,也需要更多遠場環境下的訓練數據,持續對模型進行優化,提升效果。

語音識別的過程需要經歷特征提取、模型自適應、聲學模型、語言模型、動態解碼等多個過程。除了前面提到的遠場識別問題之外,還有許多前沿研究集中于解決“雞尾酒會問題”(見圖1-35)。“雞尾酒會問題”顯示的是人類的一種聽覺能力,能在多人場景的語音/噪聲混合中,追蹤并識別至少一個聲音,在嘈雜環境下也不會影響正常交流。這種能力體現在兩種場景下:一是人們將注意力集中在某個聲音上時,比如在雞尾酒會上與朋友交談時,即使周圍環境非常嘈雜、音量甚至超過了朋友的聲音,我們也能清晰地聽到朋友說的內容;二是人們的聽覺器官突然受到某個刺激的時候,比如遠處突然有人喊了自己的名字,或者在非母語環境下突然聽到母語的時候,即使聲音出現在遠處、音量很小,我們的耳朵也能立刻捕捉到。而機器就缺乏這種能力,雖然當前的語音技術在識別一個人所講的內容時能夠體現出較高的精度,當說話人數為兩人或兩人以上時,識別精度就會大打折扣。如果用技術的語言來描述,問題的本質其實是給定多人混合語音信號,一個簡單的任務是如何從中分離出特定說話人的信號和其他噪音,而復雜的任務則是分離出同時說話的每個人的獨立語音信號。在這些任務上,研究者已經提出了一些方案,但還需要更多訓練數據的積累、訓練過程的打磨,逐漸取得突破,最終解決“雞尾酒會問題”。

圖1-35 語音識別之“雞尾酒會問題”

考慮到語義識別和對話管理環節更多是屬于自然語言處理的范疇,剩下的就是語音合成環節。語音合成的幾個步驟包括:文本分析、語言學分析、音長估算、發音參數估計等。基于現有技術合成的語音在清晰度和可懂度上已經達到了較好的水平,但機器口音還是比較明顯。目前的幾個研究方向包括:如何使合成語音聽起來更自然;如何使合成語音的表現力更豐富;如何實現自然流暢的多語言混合合成。只有在這些方向上有所突破,才能使合成的語音真正與人類聲音無異。

可以看到,在一些限制條件下,機器確實能具備一定的“聽說”能力。因此在一些具體的場景下,比如語音搜索、語音翻譯、機器朗讀等,確實有用武之地。但真正做到像正常人類一樣,與其他人流暢溝通、自由交流,還有待時日。

計算機視覺

計算機視覺的研究方向,按技術難度的從易到難、商業化程度的從高到低,依次是處理、識別檢測、分析理解。圖像處理是指不涉及高層語義,僅針對底層像素的處理;圖像識別檢測則包含了語音信息的簡單探索;圖像理解更上一層樓,包含了更豐富、更廣泛、更深層次的語義探索。目前在處理和識別檢測層面,機器的表現已經可以讓人滿意,但在理解層面,還有許多值得研究的地方。

圖像處理以大量的訓練數據為基礎(例如通過有噪聲和無噪聲的圖像配對),通過深度神經網絡訓練一個端到端的解決方案,有幾種典型任務:去噪聲、去模糊、超分辨率處理、濾鏡處理等。運用到視頻上,主要是對視頻進行濾鏡處理。這些技術目前已經相對成熟,在各類P圖軟件、視頻處理軟件中隨處可見。

圖像識別檢測的過程包括圖像預處理、圖像分割、特征提取和判斷匹配,也是基于深度學習的端到端方案,可以用來處理分類問題(如識別圖片的內容是不是貓);定位問題(如識別圖片中的貓在哪里);檢測問題(如識別圖片中有哪些動物、分別在哪里);分割問題(如圖片中的哪些像素區域是貓)等(見圖1-36)。這些技術也已比較成熟,圖像上的應用包括人臉檢測識別、OCR(Optical Character Recognition,光學字符識別)等,視頻上可用來識別影片中的明星等。當然,深度學習在這些任務中都扮演了重要角色。傳統的人臉識別算法,即使綜合考慮顏色、形狀、紋理等特征,也只能做到95%左右的準確率。而有了深度學習的加持,準確率可以達到99.5%,錯誤率下降了4.5個百分點,從而使得在金融、安防等領域的廣泛商業化應用成為可能。在OCR領域,傳統的識別方法要經過清晰度判斷、直方圖均衡、灰度化、傾斜矯正、字符切割等多項預處理工作,得到清晰且端正的字符圖像,再對文字進行識別和輸出。而深度學習的出現不僅省去了復雜且耗時的預處理和后處理工作,更將字符準確率從60%提高到90%以上。

圖1-36 圖像檢測識別相關問題

圖像理解本質上是圖像與文本間的交互,可用來執行基于文本的圖像搜索、圖像描述生成、圖像問答(給定圖像和問題,輸出答案)等。在傳統的方法下,基于文本的圖像搜索是針對文本搜索最相似的文本后,返回相應的文本圖像對;圖像描述生成是根據從圖像中識別出的物體,基于規則模板產生描述文本;圖像問答是分別對圖像與文本獲取數字化表示,然后分類得到答案。而有了深度學習,就可以直接在圖像與文本之間建立端到端的模型,提升效果。圖像理解任務目前還沒有取得非常成熟的結果,商業化場景也正在探索之中。

可以看到,計算機視覺已經達到了娛樂用、工具用的初級階段。照片自動分類、以圖搜圖、圖像描述生成等等這些功能,都可作為人類視覺的輔助工具。人們不再需要靠肉眼捕捉信息、大腦處理信息、進而分析理解,而是可以交由機器來捕捉、處理和分析,再將結果返回給人類。展望未來,計算機視覺有望進入自主理解、甚至分析決策的高級階段,真正賦予機器“看”的能力,從而在智能家居、無人車等應用場景發揮更大的價值。

自然語言處理

自然語言處理的幾個核心環節包括知識的獲取與表達、自然語言理解、自然語言生成等等,也相應出現了知識圖譜、對話管理、機器翻譯等研究方向,與前述的處理環節形成多對多的映射關系。由于自然語言處理要求機器具備的是比“感知”更難的“理解”能力,因此其中的許多問題直到今天也未能得到較好的解決。

知識圖譜是基于語義層面對知識進行組織后得到的結構化結果,可以用來回答簡單事實類的問題,包括語言知識圖譜(詞義上下位、同義詞等)、常識知識圖譜(“鳥會飛但兔子不會飛”)、實體關系圖譜(“劉德華的妻子是朱麗倩”)。知識圖譜的構建過程其實就是獲取知識、表示知識、應用知識的過程。舉例來說,針對互聯網上的一句文本“劉德華攜妻子朱麗倩出席了電影節”,我們可以從中取出“劉德華”“妻子”“朱麗倩”這幾個關鍵詞,然后得到“劉德華-妻子-朱麗倩”這樣的三元表示。同樣地,我們也可以得到“劉德華-身高-174cm”這樣的三元表示。將不同領域不同實體的這些三元表示組織在一起,就構成了知識圖譜系統。

語義理解是自然語言處理中的最大難題,這個難題的核心問題是如何從形式與意義的多對多映射中,根據當前語境找到一種最合適的映射。以中文為例,這里面需要解決四個困難,首先是歧義消除,包括詞語的歧義(例如“潛水”可以指一種水下運動,也可以指在論壇中不發言)、短語的歧義(例如“進口彩電”可以指進口的彩電,也可以指一個行動動作)、句子的歧義(例如“做手術的是他父親”可以指他父親在接受手術,也可以指他父親是手術醫生);其次是上下文關聯性,包括指代消解(例如“小明欺負小李,所以我批評了他”,需要依靠上下文才知道我批評的是調皮的小明)、省略恢復(例如“老王的兒子學習不錯,比老張的好”,其實是指“比老張的兒子的學習好”);再次是意圖識別,包括名詞與內容的意圖識別(“晴天”可以指天氣也可以指周杰倫的歌)、閑聊與問答的意圖識別(“今天下雨了”是一句閑聊,而“今天下雨嗎”則是有關天氣的一次查詢)、顯性與隱性的意圖識別(“我要買個手機”和“這手機用得太久了”都是用戶想買新手機的意圖);最后是情感識別,包括顯性與隱性的情感識別(“我不高興”和“我考試沒考好”都是用戶在表示心情低落)、基于先驗常識的情感識別(“續航時間長”是褒義的,而“等待時間長”則是貶義的)。鑒于上述的種種困難,語義理解可能的解決方案是利用知識進行約束,來破解多對多映射的困局,通過知識圖譜來補充機器的知識。然而,即使克服了語義理解上的困難,距離讓機器顯得不那么智障還是遠遠不夠的,還需要在對話管理上有所突破。

目前對話管理主要包含三種情形,按照涉及知識的通用到專業,依次是閑聊、問答、任務驅動型對話(見圖1-37)。閑聊是開放域的、存在情感聯系和聊天個性的對話,比如“今天天氣真不錯”“是呀,要不要出去走走?”閑聊的難點在于如何通過巧妙的回答激發興趣/降低不滿,從而延長對話時間、提高黏性;問答是基于問答模型和信息檢索的對話,一般是單一輪次,比如“劉德華的老婆是誰?”“劉德華的妻子朱麗倩,1966年4月6日出生于馬來西亞檳城……”問答不僅要求有較為完善的知識圖譜,還需要在沒有直接答案的情況下運用推理得到答案。任務驅動型對話涉及槽位填充、智能決策,一般是多輪次,比如“放一首跑步聽的歌吧”“為您推薦羽泉的《奔跑》”“我想聽英文歌”“為您推薦Eminem的Not afraid”。簡單任務驅動型對話已經比較成熟,未來的攻克方向是如何不依賴人工的槽位定義,建立通用領域的對話管理。

圖1-37 人工智能對話管理的三種情形

歷史上自然語言生成的典型應用一直是機器翻譯。傳統方法是一種名為Phrased-Based Machine Translation(PBMT)的方法:先將完整的一句話打散成若干個詞組,對這些詞組分別進行翻譯,然后再按照語法規則進行調序,恢復成一句通順的譯文。整個過程看起來并不復雜,但其中涉及多個自然語言處理算法,包括中文分詞、詞性標注、句法結構等等,環環相扣,其中任一環節出現的差錯都會傳導下去,影響最終結果。而深度學習則依靠大量的訓練數據,通過端到端的學習方式,直接建立源語言與目標語言之間的映射關系,跳過了中間復雜的特征選擇、人工調參等步驟。在這樣的思想下,人們對早在90年代就提出了的“編碼器-解碼器”神經機器翻譯結構進行了不斷完善,并引入了注意力機制(Attention Mechanism),使系統性能得到顯著提高。之后谷歌團隊通過強大的工程實現能力,用全新的機器翻譯系統GNMT(Google Neural Machine Translation)替代了之前的SMT(Statistical Machine Translation),相比之前的系統更為通順流暢,錯誤率也大幅下降。雖然仍有許多問題有待解決,比如對生僻詞的翻譯、漏詞、重復翻譯等,但不可否認神經機器翻譯在性能上確實取得了巨大突破,未來在出境游、商務會議、跨國交流等場景的應用前景十分可觀。

隨著互聯網的普及,信息的電子化程度也日益提高。海量數據既是自然語言處理在訓練過程中的燃料,也為其提供了廣闊的發展舞臺。搜索引擎、對話機器人、機器翻譯,甚至高考機器人、辦公智能秘書都開始在人們的日常生活中扮演越來越重要的角色。

機器學習

按照人工智能的層次來看,機器學習是比計算機視覺、自然語言處理、語音處理等技術層更底層的一個概念。近幾年來技術層的發展風生水起,處在算法層的機器學習也產生了幾個重要的研究方向。

首先是在垂直領域的廣泛應用。鑒于機器學習還存在不少的局限,不具備通用性,在一個比較狹窄的垂直領域的應用就成了較好的切入口。因為在限定的領域內,一是問題空間變得足夠小,模型的效果能夠做到更好;二是具體場景下的訓練數據更容易積累,模型訓練更高效、更有針對性;三是人們對機器的期望是特定的、具體的,期望值不高。這三點導致機器在這個限定領域內表現出足夠的智能性,從而使最終的用戶體驗也相對更好。因此,在金融、律政、醫療等垂直領域,我們都看到了一些成熟應用,且已經實現了一定的商業化。可以預見,在垂直領域內的重復性勞動,未來將有很大比例會被人工智能所取代。

其次是從解決簡單的凸優化問題到解決非凸優化問題。凸優化問題是指將所有的考慮因素表示為一組函數,然后從中選出一個最優解。而凸優化問題的一個很好的特性是局部最優就是全局最優。目前機器學習中的大部分問題,都可以通過加上一定的約束條件,轉化或近似為一個凸優化問題。雖然任何的優化問題通過遍歷函數上的所有點,一定能夠找到最優值,但這樣的計算量十分龐大。尤其當特征維度較多的時候,會產生維度災難(特征數超過已知樣本數可存在的特征數上限,導致分類器的性能反而退化)。而凸優化的特性,使得人們能通過梯度下降法尋找到下降的方向,找到的局部最優解就會是全局最優解。但在現實生活中,真正符合凸優化性質的問題其實并不多,目前對凸優化問題的關注僅僅是因為這類問題更容易解決,就像在夜晚的街道上丟了鑰匙,人們會優先在燈光下尋找一樣。因此,換一種說法,人們現在還缺乏針對非凸優化問題的行之有效的算法,這也是人們的努力方向。

再次是從監督學習向非監督學習和強化學習的演進。目前來看,大部分的AI應用都是通過監督學習,利用一組已標注的訓練數據,對分類器的參數進行調整,使其達到所要求的性能。但在現實生活中,監督學習不足以被稱為“智能”。對照人類的學習過程,許多都是建立在與事物的交互中,通過人類自身的體會、領悟,得到對事物的理解,并將之應用于未來的生活中。而機器的局限就在于缺乏這些“常識”。卷積神經網絡之父、Facebook AI研究院院長Yann LeCun曾通過一個“黑森林蛋糕”的比喻來形容他所理解的監督學習、非監督學習與強化學習間的關系:如果將機器學習視作一個黑森林蛋糕,那(純粹的)強化學習是蛋糕上不可或缺的櫻桃,需要的樣本量只有幾個Bits;監督學習是蛋糕外層的糖衣,需要10到10000個Bits的樣本量;無監督學習則是蛋糕的主體,需要數百萬Bits的樣本量,具備強大的預測能力。但他也強調,櫻桃是必須出現的配料,意味著強化學習與無監督學習是相輔相成、缺一不可的。無監督學習領域近期的研究重點在于“生成對抗網絡”(GANs),其實現方式是讓生成器(Generator)和判別器(Discriminator)這兩個網絡互相博弈,生成器隨機從訓練集中選取真實數據和干擾噪音,產生新的訓練樣本,判別器通過與真實數據進行對比,判斷數據的真實性。在這個過程中,生成器與判別器交互學習、自動優化預測能力,從而創造最佳的預測模型。自2014由Ian Goodfellow提出后,GANs席卷各大頂級會議,被Yann LeCun評價為是“20年來機器學習領域最酷的想法”。而強化學習這邊,則更接近于自然界生物學習過程的本源:如果把自己想象成是環境(Environment)中的一個代理(Agent),一方面你需要不斷探索以發現新的可能性(Exploration),一方面又要在現有條件下做到極致(Exploitation)。正確的決定或早或晚一定會為你帶來獎勵(Positive Reward),反之則會帶來懲罰(Negative Reward),直到最終徹底掌握問題的答案(Optimal Policy)。強化學習的一個重要研究方向在于建立一個有效的、與真實世界存在交互的仿真模擬環境,不斷訓練,模擬采取各種動作、接受各種反饋,以此對模型進行訓練。

無處不在的人工智能算法

隨著深度學習在計算機視覺、語音識別以及自然語言處理領域取得的成功,近幾年來,無論是在消費者端還是在企業端,已經有許多依賴人工智能技術的應用臻于成熟,并開始滲透到我們生活的方方面面。小到我們使用的智能手機中的智能助手、網頁界面中的智能推薦系統,大到智能投顧系統、智能安防系統,都依賴于以機器學習算法為基礎的人工智能技術。人工智能算法存在于人們的手機和個人電腦里,存在于政府機關、企業和公益機構的服務器上,存在于共有或者私有的云端之中。雖然我們不一定能夠時時刻刻感知到人工智能算法的存在,但人工智能算法已經高度滲透到我們的生活之中。隨著人工智能技術在各個領域的不斷成熟,可以預見在未來人工智能技術會加速滲透深入各行各業,與傳統的模式相結合提升生產力。同時人工智能技術也將進一步融入我們的生活中,日益深刻地改變我們日常生活的方方面面。

人工智能的未來

隨著技術水平的突飛猛進,人工智能終于迎來它的黃金時代。回顧人工智能60年來的風風雨雨,歷史告訴了我們這些經驗:首先,基礎設施帶來的推動作用是巨大的,人工智能屢次因數據、運算力、算法的局限而遇冷,突破的方式則是由基礎設施逐層向上推動至行業應用;其次,游戲AI在發展過程中扮演了重要的角色,因為游戲中牽涉到人機對抗,能幫助人們更直觀地理解AI、感受到觸動,從而起到推動作用;最后,我們也必須清醒地意識到,雖然在許多任務上,人工智能都取得了匹敵甚至超越人類的結果,但瓶頸還是非常明顯的。比如計算機視覺方面,存在自然條件的影響(光線、遮擋等)、主體的識別判斷問題(從一幅結構復雜的圖片中找到關注重點);語音技術方面,存在特定場合的噪音問題(車載、家居等)、遠場識別問題、長尾內容識別問題(口語化、方言等);自然語言處理方面,存在理解能力缺失、與物理世界缺少對應(“常識”的缺乏)、長尾內容識別等問題。總的來說,我們看到,現有的人工智能技術,一是依賴于大量高質量的訓練數據,二是對長尾問題的處理效果不好,三是依賴于獨立的、具體的應用場景,通用性很低。

從未來看,人們對人工智能的定位絕不僅僅只是用來解決狹窄的、特定領域的某個簡單具體的小任務,而是真正像人類一樣,能同時解決不同領域、不同類型的問題,進行判斷和決策,也就是所謂的通用型人工智能。具體來說,需要機器一方面能夠通過感知學習、認知學習去理解世界;另一方面通過強化學習去模擬世界。前者讓機器能感知信息,并通過注意、記憶、理解等方式將感知信息轉化為抽象知識,快速學習人類積累的知識;后者通過創造一個模擬環境,讓機器通過與環境交互試錯來獲得知識、持續優化知識。人們希望通過算法上、學科上的交叉、融合和優化,整體解決人工智能在創造力、通用性、對物理世界理解能力上的問題。

回到之前提到的人工智能層次的概念。從未來看,底層的基礎設施將會是由互聯網、物聯網提供的現代人工智能場景和數據,這些是生產的原料;算法層將會是由深度學習、強化學習提供的現代人工智能核心模型,輔之以云計算提供的核心算力,這些是生產的引擎。在這些的基礎之上,不管是計算機視覺、自然語言處理、語音技術,還是游戲AI、機器人等,都是基于同樣的數據、模型、算法之上的不同的應用場景。這其中還存在著一些亟待攻克的問題,如何解決這些問題正是人們一步一個腳印走向AGI的必經之路。

首先是從大數據到小數據。深度學習的訓練過程需要大量經過人工標注的數據,例如無人車研究需要大量標注了車、人、建筑物的街景照片,語音識別研究需要文本到語音的播報和語音到文本的聽寫,機器翻譯需要雙語的句對,圍棋需要人類高手的走子記錄等。但針對大規模數據的標注工作是一件費時費力的工作,尤其對于一些長尾的場景來說,連基礎數據的收集都成問題。因此,一個研究方向就是如何在數據缺失的條件下進行訓練,從無標注的數據里進行學習,或者自動模擬(生成)數據進行訓練,目前特別火熱的GANs就是一種數據生成模型。

其次是從大模型到小模型。目前深度學習的模型都非常大,動輒幾百兆字節(MB),大的甚至可以到幾千兆字節甚至幾十千兆字節(GB)。雖然模型在PC端運算不成問題,但如果要在移動設備上使用就會非常麻煩。這就造成語音輸入法、語音翻譯、圖像濾鏡等基于移動端的APP無法取得較好的效果。這塊的研究方向在于如何精簡模型的大小,通過直接壓縮或是更精巧的模型設計,通過移動終端的低功耗計算與云計算之間的結合,使得在小模型上也能跑出大模型的效果。

最后是從感知認知到理解決策。在感知和認知的部分,比如視覺、聽覺,機器在一定限定條件下已經能夠做到足夠好了。當然這些任務本來也不難,機器的價值在于可以比人做得更快、更準、成本更低。但這些任務基本都是靜態的,即在給定輸入的情況下,輸出結果是一定的。而在一些動態的任務中,比如如何下贏一盤圍棋、如何開車從一個路口到另一個路口、如何在一只股票上投資并賺到錢,這類不完全信息的決策型的問題,需要持續地與環境進行交互、收集反饋、優化策略,這些也正是強化學習的強項。而模擬環境(模擬器)作為強化學習生根發芽的土壤,也是一個重要的研究方向。

2016年3月,當AlphaGo戰勝圍棋世界冠軍李世石時,我們都是歷史的見證者。AlphaGo的勝利標志著一個新時代的開啟:在人工智能概念被提出60年后,我們真正進入了一個人工智能的時代。在這次人工智能浪潮中,人工智能技術持續不斷地高速發展著,最終將深刻改變各行各業和我們的日常生活。發展人工智能的最終目標并不是要替代人類智能,而是通過人工智能增強人類智能。人工智能可以與人類智能互補,幫助人類處理許多能夠處理,但又不擅長的工作,使得人類從繁重的重復性工作中解放出來,轉而專注于發現、創造的工作。有了人工智能的輔助,人類將會進入一個知識積累加速增長的階段,最終帶來方方面面的進步。人工智能在這一路的發展歷程中,已經給人們帶來了很多的驚喜與期待。只要我們能夠善用人工智能,相信在不遠的未來,人工智能技術一定能實現更多的不可能,帶領人類進入一個充滿無限可能的新紀元。

主站蜘蛛池模板: 吉林省| 美姑县| 万安县| 寿光市| 灵丘县| 巩义市| 郁南县| 万全县| 南召县| 山丹县| 望奎县| 会理县| 沙湾县| 凤台县| 云和县| 琼海市| 屏山县| 东至县| 平湖市| 唐河县| 北碚区| 东至县| 垣曲县| 吉林省| 乐东| 车险| 衡南县| 兴安盟| 岑溪市| 乐陵市| 深水埗区| 巴东县| 万山特区| 高阳县| 阜阳市| 兴和县| 策勒县| 安庆市| 奉节县| 北碚区| 浠水县|