第二章
人工智能的過去
人工智能的概念
提起人工智能,我們會想起在各類影視作品中看到的場景:《她》里讓人類陷入愛情的人工智能操作系統(tǒng)薩曼莎、《超能特工隊(duì)》里的充氣醫(yī)療機(jī)器人大白、《西部世界》里游蕩在公園里逐漸意識覺醒的機(jī)器人接待員等等,都是人們對人工智能的美好期待。
時(shí)間回到1956年的夏天,在達(dá)特茅斯夏季人工智能研究會議上,約翰·麥卡錫、馬文·明斯基、納撒尼爾·羅切斯特和克勞德·香農(nóng),以及其余6位科學(xué)家,共同討論了當(dāng)時(shí)計(jì)算機(jī)科學(xué)領(lǐng)域尚未解決的問題,第一次提出了人工智能的概念。在這次會議之后,人工智能開始了第一春,但受限于當(dāng)時(shí)的軟硬件條件,那時(shí)的人工智能研究多局限于對于人類大腦運(yùn)行的模擬,研究者只能著眼于一些特定領(lǐng)域的具體問題,出現(xiàn)了幾何定理證明器、西洋跳棋程序、積木機(jī)器人等。在那個(gè)計(jì)算機(jī)僅僅被作為數(shù)值計(jì)算器的時(shí)代,這些略微展現(xiàn)出智能的應(yīng)用,即被視作人工智能的體現(xiàn)。
進(jìn)入21世紀(jì),隨著深度學(xué)習(xí)的提出,人工智能又一次掀起浪潮。小到手機(jī)里的Apple Siri,大到城市里的智慧安防,層出不窮的應(yīng)用出現(xiàn)在論文里、新聞里以及人們的日常生活中。而其中最稱得上里程碑事件的是,2016年由谷歌旗下DeepMind公司開發(fā)的AlphaGo,在與圍棋世界冠軍、職業(yè)九段棋手李世石進(jìn)行的圍棋人機(jī)大戰(zhàn)中,以4比1的總比分獲勝。這一刻,即使是之前對人工智能一無所知的人,也終于開始感受到它的力量。
雖然人工智能技術(shù)在近幾年取得了高速的發(fā)展,但要給人工智能下個(gè)準(zhǔn)確的定義并不容易。一般認(rèn)為,人工智能是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人類日常生活中的許多活動,如數(shù)學(xué)計(jì)算、觀察、對話、學(xué)習(xí)等,都需要“智能”。“智能”能預(yù)測股票、看得懂圖片或視頻,也能和其他人進(jìn)行文字或語言上的交流,不斷督促自我完善知識儲備,它會畫畫,會寫詩,會駕駛汽車,會開飛機(jī)。在人們的理想中,如果機(jī)器能夠執(zhí)行這些任務(wù)中的一種或幾種,就可以認(rèn)為該機(jī)器已具有某種性質(zhì)的“人工智能”。時(shí)至今日,人工智能概念的內(nèi)涵已經(jīng)被大大擴(kuò)展,它涵蓋了計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、腦神經(jīng)學(xué)、社會科學(xué)等諸多領(lǐng)域,是一門交叉學(xué)科。人們希望通過對人工智能的研究,能將它用于模擬和擴(kuò)展人的智能,輔助甚至代替人們實(shí)現(xiàn)多種功能,包括識別、認(rèn)知、分析、決策等等。
人工智能的層次
如果要結(jié)構(gòu)化地表述人工智能的話,從下往上依次是基礎(chǔ)設(shè)施層、算法層、技術(shù)層、應(yīng)用層(見圖1-16)。基礎(chǔ)設(shè)施包括硬件/計(jì)算能力和大數(shù)據(jù);算法層包括各類機(jī)器學(xué)習(xí)算法、深度學(xué)習(xí)算法等;再往上是多個(gè)技術(shù)方向,包括賦予計(jì)算機(jī)感知/分析能力的計(jì)算機(jī)視覺技術(shù)和語音技術(shù)、提供理解/思考能力的自然語言處理技術(shù)、提供決策/交互能力的規(guī)劃決策系統(tǒng)和大數(shù)據(jù)/統(tǒng)計(jì)分析技術(shù)。每個(gè)技術(shù)方向下又有多個(gè)具體子技術(shù);最頂層的是行業(yè)解決方案,目前比較成熟的包括金融、安防、交通、醫(yī)療、游戲等。

圖1-16 人工智能的層次結(jié)構(gòu)
基礎(chǔ)設(shè)施層
回顧人工智能發(fā)展史,每次基礎(chǔ)設(shè)施的發(fā)展都顯著地推動了算法層和技術(shù)層的演進(jìn)。從20世紀(jì)70年代的計(jì)算機(jī)興起、80年代的計(jì)算機(jī)普及,到90年代計(jì)算機(jī)運(yùn)算速度和存儲量的增加、互聯(lián)網(wǎng)興起帶來的數(shù)據(jù)電子化,均產(chǎn)生了較大的推動作用。而到了21世紀(jì),這種推動效果則更為顯著,互聯(lián)網(wǎng)大規(guī)模服務(wù)集群的出現(xiàn)、搜索和電商業(yè)務(wù)帶來的大數(shù)據(jù)積累、GPU(圖形處理器)和異構(gòu)/低功耗芯片興起帶來的運(yùn)算力提升,促成了深度學(xué)習(xí)的誕生,點(diǎn)燃了人工智能的這一波爆發(fā)浪潮。
這波浪潮之中,數(shù)據(jù)的爆發(fā)增長功不可沒。我們知道,海量的訓(xùn)練數(shù)據(jù)是人工智能發(fā)展的重要燃料,數(shù)據(jù)的規(guī)模和豐富度對算法訓(xùn)練尤為重要。如果我們把人工智能看成一個(gè)剛出生的嬰兒,某一領(lǐng)域?qū)I(yè)的、海量的、深度的數(shù)據(jù)就是喂養(yǎng)這個(gè)天才的奶粉。奶粉的數(shù)量決定了嬰兒是否能長大,而奶粉的質(zhì)量則決定了嬰兒后續(xù)的智力發(fā)育水平。2000年以來,得益于互聯(lián)網(wǎng)、社交媒體、移動設(shè)備和傳感器的普及,全球產(chǎn)生及存儲的數(shù)據(jù)量劇增。根據(jù)IDC報(bào)告顯示,2020年全球數(shù)據(jù)總量預(yù)計(jì)將超過40ZB(相當(dāng)于4萬億G),這一數(shù)據(jù)量是2011年的22倍(見圖1-17)。在過去幾年,全球的數(shù)據(jù)量以每年58%的速度增長,在未來這個(gè)速度將會更快。與之前相比,現(xiàn)階段“數(shù)據(jù)”包含的信息量越來越大、維度越來越多,從簡單的文本、圖像、聲音等數(shù)據(jù),到動作、姿態(tài)、軌跡等人類行為數(shù)據(jù),再到地理位置、天氣等環(huán)境數(shù)據(jù)。有了規(guī)模更大、類型更豐富的數(shù)據(jù),模型效果自然也能得到提升。

圖1-17 2005—2020年全球總體數(shù)據(jù)量
而在另一方面,運(yùn)算力的提升也起到了明顯效果。AI芯片的出現(xiàn)顯著提高了數(shù)據(jù)處理速度,尤其在處理海量數(shù)據(jù)時(shí)明顯優(yōu)于傳統(tǒng)CPU。在擅長處理/控制和復(fù)雜流程但高功耗的CPU的基礎(chǔ)之上,誕生了擅長并行計(jì)算的GPU,以及擁有良好運(yùn)行能效比、更適合深度學(xué)習(xí)模型的FPGA和ASIC。芯片的功耗比越來越高,而靈活性則越來越低,甚至可以是為特定功能的深度學(xué)習(xí)算法量身定做的(見圖1-18)。

圖1-18 不同類型芯片運(yùn)算能力、功耗對比
算法層
說到算法層,必須先明確幾個(gè)概念。所謂“機(jī)器學(xué)習(xí)”,是指利用算法使計(jì)算機(jī)能夠像人一樣從數(shù)據(jù)中挖掘出信息;而“深度學(xué)習(xí)”作為“機(jī)器學(xué)習(xí)”的一個(gè)子集,相比其他學(xué)習(xí)方法,使用了更多的參數(shù)、模型也更復(fù)雜,從而使得模型對數(shù)據(jù)的理解更加深入,也更加智能。傳統(tǒng)機(jī)器學(xué)習(xí)是分步驟來進(jìn)行的,每一步的最優(yōu)解不一定帶來結(jié)果的最優(yōu)解;另一方面,手工選取特征是一種費(fèi)時(shí)費(fèi)力且需要專業(yè)知識的方法,很大程度上依賴經(jīng)驗(yàn)和運(yùn)氣。而深度學(xué)習(xí)是從原始特征出發(fā),自動學(xué)習(xí)高級特征組合,整個(gè)過程是端到端的,直接保證最終輸出的是最優(yōu)解。但中間的隱層是一個(gè)黑箱,我們并不知道機(jī)器提取出了什么特征(見圖1-19)。

圖1-19 深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的差別
機(jī)器學(xué)習(xí)中會碰到以下幾類典型問題(見圖1-20)。第一類是無監(jiān)督學(xué)習(xí)問題:給定數(shù)據(jù),從數(shù)據(jù)中發(fā)現(xiàn)信息。它的輸入是沒有維度標(biāo)簽的歷史數(shù)據(jù),要求的輸出是聚類后的數(shù)據(jù)。比如給定一籃水果,要求機(jī)器自動將其中的同類水果歸在一起。機(jī)器會怎么做呢?首先對籃子里的每個(gè)水果都用一個(gè)向量來表示,比如顏色、味道、形狀。然后將相似向量(向量距離比較近)的水果歸為一類,紅色、甜的、圓形的被劃在了一類,黃色、甜的、條形的被劃在了另一類。人類跑過來一看,原來第一類里的都是蘋果,第二類里的都是香蕉呀。這就是無監(jiān)督學(xué)習(xí),典型的應(yīng)用場景是用戶聚類、新聞聚類等。

圖1-20 機(jī)器學(xué)習(xí)中的三類典型問題
第二類是監(jiān)督學(xué)習(xí)問題:給定數(shù)據(jù),預(yù)測這些數(shù)據(jù)的標(biāo)簽。它的輸出是帶維度標(biāo)簽的歷史數(shù)據(jù),要求的輸出是依據(jù)模型所做出的預(yù)測。比如給定一籃水果,其中不同的水果都貼上了水果名的標(biāo)簽,要求機(jī)器從中學(xué)習(xí),然后對一個(gè)新的水果預(yù)測其標(biāo)簽名。機(jī)器還是對每個(gè)水果進(jìn)行了向量表示,根據(jù)水果名的標(biāo)簽,機(jī)器通過學(xué)習(xí)發(fā)現(xiàn)紅色、甜的、圓形的對應(yīng)的是蘋果,黃色、甜的、條形的對應(yīng)的是香蕉。于是,對于一個(gè)新的水果,機(jī)器按照這個(gè)水果的向量表示知道了它是蘋果還是香蕉。監(jiān)督學(xué)習(xí)典型的應(yīng)用場景是推薦、預(yù)測相關(guān)的問題。
第三類是強(qiáng)化學(xué)習(xí)問題:給定數(shù)據(jù),選擇動作以最大化長期獎勵。它的輸入是歷史的狀態(tài)、動作和對應(yīng)獎勵,要求輸出的是當(dāng)前狀態(tài)下的最佳動作。與前兩類問題不同的是,強(qiáng)化學(xué)習(xí)是一個(gè)動態(tài)的學(xué)習(xí)過程,而且沒有明確的學(xué)習(xí)目標(biāo),對結(jié)果也沒有精確的衡量標(biāo)準(zhǔn)。強(qiáng)化學(xué)習(xí)作為一個(gè)序列決策問題,就是計(jì)算機(jī)連續(xù)選擇一些行為,在沒有任何維度標(biāo)簽告訴計(jì)算機(jī)應(yīng)怎么做的情況下,計(jì)算機(jī)先嘗試做出一些行為,然后得到一個(gè)結(jié)果,通過判斷這個(gè)結(jié)果是對還是錯(cuò),來對之前的行為進(jìn)行反饋。舉個(gè)例子來說,假設(shè)在午飯時(shí)間你要下樓吃飯,附近的餐廳你已經(jīng)體驗(yàn)過一部分,但不是全部,你可以在已經(jīng)嘗試過的餐館中選一家最好的(開發(fā),exploitation),也可以嘗試一家新的餐館(探索,exploration),后者可能讓你發(fā)現(xiàn)新的更好的餐館,也可能吃到不滿意的一餐。而當(dāng)你已經(jīng)嘗試過的餐廳足夠多的時(shí)候,你會總結(jié)出經(jīng)驗(yàn)(“大眾點(diǎn)評”上的高分餐廳一般不會太差;公司樓下近的餐廳沒有遠(yuǎn)的餐廳好吃,等等),這些經(jīng)驗(yàn)會幫助你更好地發(fā)現(xiàn)靠譜的餐館。許多控制決策類的問題都是強(qiáng)化學(xué)習(xí)問題,比如讓機(jī)器通過各種參數(shù)調(diào)整來控制無人機(jī)實(shí)現(xiàn)穩(wěn)定飛行,通過各種按鍵操作在電腦游戲中贏得分?jǐn)?shù)等。
機(jī)器學(xué)習(xí)算法中的一個(gè)重要分支是神經(jīng)網(wǎng)絡(luò)算法。雖然直到21世紀(jì)才因?yàn)锳lphaGo的勝利而為人們所熟知,但神經(jīng)網(wǎng)絡(luò)的歷史至少可以追溯到60年前。60年來神經(jīng)網(wǎng)絡(luò)幾經(jīng)起落,由于各個(gè)時(shí)代背景下數(shù)據(jù)、硬件、運(yùn)算力等的種種限制,一次次因遭遇瓶頸而被冷落,又一次次取得突破重新回到人們的視野中,最近的一次是隨著深度學(xué)習(xí)的興起而備受關(guān)注。
從20世紀(jì)40年代起,就有學(xué)者開始從事神經(jīng)網(wǎng)絡(luò)的研究:McCulloch和Pitts發(fā)布了A Logical Calculus of the Ideas Immanent in Nervous Activity,被認(rèn)為是神經(jīng)網(wǎng)絡(luò)的第一篇文章;神經(jīng)心理學(xué)家Hebb出版了The Organization of Behavior
一書,在書中提出了被后人稱為“Hebb規(guī)則”的學(xué)習(xí)機(jī)制。第一個(gè)大突破出現(xiàn)于1958年,Rosenblatt在計(jì)算機(jī)上模擬實(shí)現(xiàn)了一種他發(fā)明的叫作“感知機(jī)”(Perceptron)的模型
,這個(gè)模型可以完成一些簡單的視覺處理任務(wù),也是后來神經(jīng)網(wǎng)絡(luò)的雛形、支持向量機(jī)(一種快速可靠的分類算法)的基礎(chǔ)(見圖1-21)。一時(shí)間,這種能夠模擬人腦的算法得到了人們的廣泛追捧,國防部等政府機(jī)構(gòu)紛紛開始贊助神經(jīng)網(wǎng)絡(luò)的研究。神經(jīng)網(wǎng)絡(luò)的風(fēng)光持續(xù)了十余年,1969年,Minsky等人論證了感知機(jī)在解決XOR(異或)等基本邏輯問題時(shí)能力有限
,這一缺陷的展現(xiàn)澆滅了人們對神經(jīng)網(wǎng)絡(luò)的熱情,原來的政府機(jī)構(gòu)也逐漸停止資助,直接造成了此后長達(dá)10年的神經(jīng)網(wǎng)絡(luò)的“冷靜時(shí)期”。期間,Werbos在1974年證明了在神經(jīng)網(wǎng)絡(luò)中多加一層
,并且利用“后向傳播”(Back-propagation)算法可以有效解決XOR問題,但由于當(dāng)時(shí)仍處于神經(jīng)網(wǎng)絡(luò)的低潮,這一成果并沒有得到太多關(guān)注。

圖1-21 感知機(jī)模型圖示
直到80年代,神經(jīng)網(wǎng)絡(luò)才終于迎來復(fù)興。物理學(xué)家Hopfield在1982年和1984年發(fā)表了兩篇關(guān)于人工神經(jīng)網(wǎng)絡(luò)研究的論文,提出了一種新的神經(jīng)網(wǎng)絡(luò),可以解決一大類模式識別問題,還可以給出一類組合優(yōu)化問題的近似解。他的研究引起了巨大的反響,人們重新認(rèn)識到神經(jīng)網(wǎng)絡(luò)的威力以及付諸應(yīng)用的現(xiàn)實(shí)性。1985年,Rumelhart、Hinton等許多神經(jīng)網(wǎng)絡(luò)學(xué)者成功實(shí)現(xiàn)了使用“后向傳播”BP算法來訓(xùn)練神經(jīng)網(wǎng)絡(luò)
,并在很長一段時(shí)間內(nèi)將BP作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的專用算法。在這之后,越來越多的研究成果開始涌現(xiàn)。1995年,Yann LeCun等人受生物視覺模型的啟發(fā),改進(jìn)了卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network, CNN)(見圖1-22)。
這個(gè)網(wǎng)絡(luò)模擬了視覺皮層中的細(xì)胞(有小部分細(xì)胞對特定部分的視覺區(qū)域敏感,個(gè)體神經(jīng)細(xì)胞只有在特定方向的邊緣存在時(shí)才能做出反應(yīng)),以類似的方式計(jì)算機(jī)能夠進(jìn)行圖像分類任務(wù)(通過尋找低層次的簡單特征,如邊緣和曲線,然后運(yùn)用一系列的卷積層建立一個(gè)更抽象的概念),在手寫識別等小規(guī)模問題上取得了當(dāng)時(shí)的最好結(jié)果。2000年之后,Bengio等人開創(chuàng)了神經(jīng)網(wǎng)絡(luò)構(gòu)建語言模型的先河。

圖1-22 卷積神經(jīng)網(wǎng)絡(luò)(CNN)圖示
直到2001年,Hochreiter等人發(fā)現(xiàn)使用BP算法時(shí),在神經(jīng)網(wǎng)絡(luò)單元飽和之后會發(fā)生梯度損失,即模型訓(xùn)練超過一定迭代次數(shù)后容易產(chǎn)生過擬合,就是訓(xùn)練集和測試集數(shù)據(jù)分布不一致(就好比上學(xué)考試的時(shí)候,有的人采取題海戰(zhàn)術(shù),把每道題目都背下來。但是題目稍微一變,他就不會做了。因?yàn)闄C(jī)器非常復(fù)雜地記住了每道題的做法,卻沒有抽象出通用的規(guī)則)。神經(jīng)網(wǎng)絡(luò)又一次被人們所遺棄。然而,神經(jīng)網(wǎng)絡(luò)并未就此沉寂,許多學(xué)者仍在堅(jiān)持不懈地進(jìn)行研究。2006年,Hinton和他的學(xué)生在Science雜志上發(fā)表了一篇文章
,從此掀起了深度學(xué)習(xí)(Deep Learning)的浪潮。深度學(xué)習(xí)能發(fā)現(xiàn)大數(shù)據(jù)中的復(fù)雜結(jié)構(gòu),也因此大幅提升了神經(jīng)網(wǎng)絡(luò)的效果。2009年開始,微軟研究院和Hinton合作研究基于深度神經(jīng)網(wǎng)絡(luò)的語音識別
,使得相對誤識別率降低25%。2012年,Hinton又帶領(lǐng)學(xué)生在目前最大的圖像數(shù)據(jù)庫ImageNet上,對分類問題取得了驚人成果,將Top5錯(cuò)誤率由26%降低至15%。
再往后的一個(gè)標(biāo)志性時(shí)間是2014年,Ian Goodfellow等學(xué)者發(fā)表論文提出題目中的“生成對抗網(wǎng)絡(luò)”
,標(biāo)志著GANs的誕生,并自2016年開始成為學(xué)界、業(yè)界炙手可熱的概念,它為創(chuàng)建無監(jiān)督學(xué)習(xí)模型提供了強(qiáng)有力的算法框架。時(shí)至今日,神經(jīng)網(wǎng)絡(luò)經(jīng)歷了數(shù)次潮起潮落后,又一次站在了風(fēng)口浪尖,在圖像識別、語音識別、機(jī)器翻譯等領(lǐng)域,都隨處可見它的身影(見圖1-23)。

圖1-23 神經(jīng)網(wǎng)絡(luò)發(fā)展簡史
而其他淺層學(xué)習(xí)的算法,也在另一條路線上不斷發(fā)展著,甚至一度取代神經(jīng)網(wǎng)絡(luò)成為人們最青睞的算法。直到今天,即使神經(jīng)網(wǎng)絡(luò)的發(fā)展如日中天,這些淺層算法也在一些任務(wù)中占有一席之地。
1984年,Breiman和Friedman提出決策樹算法,作為一個(gè)預(yù)測模型,代表的是對象屬性與對象值之間的一種映射關(guān)系。1995年,Vapnik和Cortes提出支持向量機(jī)(SVM)
,用一個(gè)分類超平面將樣本分開從而達(dá)到分類效果(見圖1-24)。這種監(jiān)督式學(xué)習(xí)的方法,可廣泛地應(yīng)用于統(tǒng)計(jì)分類以及回歸分析。鑒于SVM強(qiáng)大的理論地位和實(shí)證結(jié)果,機(jī)器學(xué)習(xí)研究也自此分為神經(jīng)網(wǎng)絡(luò)和SVM兩派。1997年,F(xiàn)reund和Schapire提出了另一個(gè)堅(jiān)實(shí)的ML模型AdaBoost
,該算法最大的特點(diǎn)在于組合弱分類器形成強(qiáng)分類器,在臉部識別和檢測方面應(yīng)用很廣。2001年,Breiman提出可以將多個(gè)決策樹組合成為隨機(jī)森林
,它可以處理大量輸入變量,學(xué)習(xí)過程快,準(zhǔn)確度高(見圖1-25)。隨著該方法的提出,SVM在許多之前由神經(jīng)網(wǎng)絡(luò)占據(jù)的任務(wù)中獲得了更好的效果,神經(jīng)網(wǎng)絡(luò)已無力和SVM競爭。之后雖然深度學(xué)習(xí)的興起給神經(jīng)網(wǎng)絡(luò)帶來了第二春,使其在圖像、語音、NLP等領(lǐng)域都取得了領(lǐng)先成果,但這并不意味著其他機(jī)器學(xué)習(xí)流派的終結(jié)。深度神經(jīng)網(wǎng)絡(luò)所需的訓(xùn)練成本、調(diào)參復(fù)雜度等問題仍備受詬病,SVM則因其簡單性占據(jù)了一席之地,在文本處理、圖像處理、網(wǎng)頁搜索、金融征信等領(lǐng)域仍有著廣泛應(yīng)用。

圖1-24 支持向量機(jī)(SVM)圖示

圖1-25 淺層學(xué)習(xí)算法發(fā)展歷史
另一個(gè)重要領(lǐng)域是強(qiáng)化學(xué)習(xí),這個(gè)因AlphaGo而為人所熟知的概念,從60年代誕生以來,一直不溫不火地發(fā)展著,直到在AlphaGo中與深度學(xué)習(xí)的創(chuàng)造性結(jié)合讓它重獲新生。
1967年,Samuel發(fā)明的下棋程序是強(qiáng)化學(xué)習(xí)的最早應(yīng)用雛形。但在六七十年代,人們對強(qiáng)化學(xué)習(xí)的研究與監(jiān)督學(xué)習(xí)、模式識別等問題混淆在一起,導(dǎo)致進(jìn)展緩慢。進(jìn)入80年代后,隨著對神經(jīng)網(wǎng)絡(luò)的研究取得進(jìn)展以及基礎(chǔ)設(shè)施的完善,強(qiáng)化學(xué)習(xí)的研究再現(xiàn)高潮。1983年,Barto通過強(qiáng)化學(xué)習(xí)使倒立擺維持了較長時(shí)間。另一位強(qiáng)化學(xué)習(xí)大牛Sutton也提出了強(qiáng)化學(xué)習(xí)的幾個(gè)主要算法,包括1984年提出的AHC算法,之后又在1988年提出TD方法
。1989年,Watkins提出著名的Q-learning算法。
隨著幾個(gè)重要算法被提出,到了90年代,強(qiáng)化學(xué)習(xí)已逐漸發(fā)展成為機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要組成部分。
最新也是最大的一個(gè)里程碑事件出現(xiàn)在2016年,谷歌旗下DeepMind公司的David Silver創(chuàng)新性地將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合在了一起,打造出圍棋軟件AlphaGo,接連戰(zhàn)勝李世石、柯潔等一眾世界圍棋冠軍,展現(xiàn)了強(qiáng)化學(xué)習(xí)的巨大威力(見圖1-26)。

圖1-26 強(qiáng)化學(xué)習(xí)算法發(fā)展歷史
技術(shù)方向的發(fā)展
計(jì)算機(jī)視覺
“看”是人類與生俱來的能力。剛出生的嬰兒只需要幾天的時(shí)間就能學(xué)會模仿父母的表情,人們能從復(fù)雜結(jié)構(gòu)的圖片中找到關(guān)注重點(diǎn)、在昏暗的環(huán)境下認(rèn)出熟人。隨著人工智能的發(fā)展,機(jī)器也試圖在這項(xiàng)能力上匹敵甚至超越人類。
計(jì)算機(jī)視覺的歷史可以追溯到1966年,人工智能學(xué)家Minsky在給學(xué)生布置的作業(yè)中,要求學(xué)生通過編寫一個(gè)程序讓計(jì)算機(jī)告訴我們它通過攝像頭看到了什么,這也被認(rèn)為是計(jì)算機(jī)視覺最早的任務(wù)描述。到了七八十年代,隨著現(xiàn)代電子計(jì)算機(jī)的出現(xiàn),計(jì)算機(jī)視覺技術(shù)也初步萌芽。人們開始嘗試讓計(jì)算機(jī)回答出它看到了什么東西,于是首先想到的是從人類看東西的方法中獲得借鑒。借鑒之一是當(dāng)時(shí)人們普遍認(rèn)為,人類能看到并理解事物,是因?yàn)槿祟愅ㄟ^兩只眼睛可以立體地觀察事物。因此要想讓計(jì)算機(jī)理解它所看到的圖像,必須先將事物的三維結(jié)構(gòu)從二維的圖像中恢復(fù)出來,這就是所謂的“三維重構(gòu)”的方法。借鑒之二是人們認(rèn)為人之所以能識別出一個(gè)蘋果,是因?yàn)槿藗円呀?jīng)知道了蘋果的先驗(yàn)知識,比如蘋果是紅色的、圓的、表面光滑的,如果給機(jī)器也建立一個(gè)這樣的知識庫,讓機(jī)器將看到的圖像與庫里的儲備知識進(jìn)行匹配,是否可以讓機(jī)器識別乃至理解它所看到的東西呢,這是所謂的“先驗(yàn)知識庫”的方法。這一階段的應(yīng)用主要是一些光學(xué)字符識別、工件識別、顯微/航空圖片的識別等等。
到了90年代,計(jì)算機(jī)視覺技術(shù)取得了更大的發(fā)展,也開始廣泛應(yīng)用于工業(yè)領(lǐng)域。一方面是由于GPU、DSP等圖像處理硬件技術(shù)有了飛速進(jìn)步;另一方面是人們也開始嘗試不同的算法,包括統(tǒng)計(jì)方法和局部特征描述符的引入。在“先驗(yàn)知識庫”的方法中,事物的形狀、顏色、表面紋理等特征受到視角和觀察環(huán)境的影響,在不同角度、不同光線、不同遮擋的情況下會產(chǎn)生變化。因此,人們找到了一種方法,通過局部特征的識別來判斷事物,通過對事物建立一個(gè)局部特征索引,即使視角或觀察環(huán)境發(fā)生變化,也能比較準(zhǔn)確地匹配上(見圖1-27)。

圖1-27 基于局部特征識別的計(jì)算機(jī)視覺技術(shù)
進(jìn)入21世紀(jì),得益于互聯(lián)網(wǎng)興起和數(shù)碼相機(jī)出現(xiàn)帶來的海量數(shù)據(jù),加之機(jī)器學(xué)習(xí)方法的廣泛應(yīng)用,計(jì)算機(jī)視覺發(fā)展迅速。以往許多基于規(guī)則的處理方式,都被機(jī)器學(xué)習(xí)所替代,自動從海量數(shù)據(jù)中總結(jié)歸納物體的特征,然后進(jìn)行識別和判斷。這一階段涌現(xiàn)出了非常多的應(yīng)用,包括典型的相機(jī)人臉檢測、安防人臉識別、車牌識別等等。數(shù)據(jù)的積累還誕生了許多評測數(shù)據(jù)集,比如權(quán)威的人臉識別和人臉比對識別的平臺——FDDB和LFW等,其中最有影響力的是ImageNet,包含1400萬張已標(biāo)注的圖片,劃分在上萬個(gè)類別里。
到了2010年以后,借助于深度學(xué)習(xí)的力量,計(jì)算機(jī)視覺技術(shù)得到了爆發(fā)增長,實(shí)現(xiàn)了產(chǎn)業(yè)化。通過深度神經(jīng)網(wǎng)絡(luò),各類視覺相關(guān)任務(wù)的識別精度都得到了大幅提升。在全球最權(quán)威的計(jì)算機(jī)視覺競賽ILSVR(ImageNet Large Scale Visual Recognition Competition)上,千類物體識別Top-5錯(cuò)誤率在2010年和2011年時(shí)分別為28.2%和25.8%,從2012年引入深度學(xué)習(xí)之后,后續(xù)4年分別為16.4%、11.7%、6.7%、3.7%,出現(xiàn)了顯著突破。由于效果的提升,計(jì)算機(jī)視覺技術(shù)的應(yīng)用場景也快速擴(kuò)展,除了在比較成熟的安防領(lǐng)域應(yīng)用外,也應(yīng)用于金融領(lǐng)域的人臉識別身份驗(yàn)證、電商領(lǐng)域的商品拍照搜索、醫(yī)療領(lǐng)域的智能影像診斷、機(jī)器人/無人車上作為視覺輸入系統(tǒng)等,包括許多有意思的場景:照片自動分類(圖像識別+分類)、圖像描述生成(圖像識別+理解)等等(見圖1-28)。

圖1-28 計(jì)算機(jī)視覺發(fā)展歷程
語音技術(shù)
語言交流是人類最直接最簡潔的交流方式。長久以來,讓機(jī)器學(xué)會“聽”和“說”,實(shí)現(xiàn)與人類的無障礙交流一直是人工智能、人機(jī)交互領(lǐng)域的一大夢想。
早在電子計(jì)算機(jī)出現(xiàn)之前,人們就有了讓機(jī)器識別語音的夢想。1920年生產(chǎn)的“Radio Rex”玩具狗可能是世界上最早的語音識別器,當(dāng)有人喊“Rex”的時(shí)候,這只狗能夠從底座上彈出來(見圖1-29)。但實(shí)際上它所用到的技術(shù)并不是真正的語音識別,而是通過一個(gè)彈簧,這個(gè)彈簧在接收到500赫茲的聲音時(shí)會自動釋放,而500赫茲恰好是人們喊出“Rex”中元音的第一個(gè)共振峰。第一個(gè)真正基于電子計(jì)算機(jī)的語音識別系統(tǒng)出現(xiàn)在1952年,AT&T貝爾實(shí)驗(yàn)室開發(fā)了一款名為Audrey的語音識別系統(tǒng),能夠識別10個(gè)英文數(shù)字,正確率高達(dá)98%。70年代開始出現(xiàn)了大規(guī)模的語音識別研究,但當(dāng)時(shí)的技術(shù)還處于萌芽階段,停留在對孤立詞、小詞匯量句子的識別上。

圖1-29 “Radio Rex”玩具狗
80年代是技術(shù)取得突破的時(shí)代,一個(gè)重要原因是全球性的電傳業(yè)務(wù)積累了大量文本,這些文本可作為機(jī)讀語料用于模型的訓(xùn)練和統(tǒng)計(jì)。研究的重點(diǎn)也逐漸轉(zhuǎn)向大詞匯量、非特定人的連續(xù)語音識別。那時(shí)最主要的變化來自用基于統(tǒng)計(jì)的思路替代傳統(tǒng)的基于匹配的思路,其中的一個(gè)關(guān)鍵進(jìn)展是隱馬爾科夫模型(HMM)的理論和應(yīng)用都趨于完善。工業(yè)界也出現(xiàn)了廣泛的應(yīng)用,德州儀器研發(fā)了名為Speak & Spell語音學(xué)習(xí)機(jī),語音識別服務(wù)商Speech Works成立,美國國防部高級研究計(jì)劃局(DARPA)也贊助支持了一系列語音相關(guān)的項(xiàng)目。
90年代是語音識別基本成熟的時(shí)期,主流的高斯混合模型GMM-HMM框架逐漸趨于穩(wěn)定,但識別效果與真正實(shí)用還有一定距離,語音識別研究的進(jìn)展也逐漸趨緩。由于80年代末90年代初神經(jīng)網(wǎng)絡(luò)技術(shù)的熱潮,神經(jīng)網(wǎng)絡(luò)技術(shù)也被用于語音識別,提出了多層感知器-隱馬爾科夫模型(MLP-HMM)混合模型。但是性能上無法超越GMM-HMM框架。
突破的產(chǎn)生始于深度學(xué)習(xí)的出現(xiàn)。隨著深度神經(jīng)網(wǎng)絡(luò)(DNN)被應(yīng)用到語音的聲學(xué)建模中,人們陸續(xù)在音素識別任務(wù)和大詞匯量連續(xù)語音識別任務(wù)上取得突破。基于GMM-HMM的語音識別框架被基于DNN-HMM的語音識別系統(tǒng)所替代,而隨著系統(tǒng)的持續(xù)改進(jìn),又出現(xiàn)了深層卷積神經(jīng)網(wǎng)絡(luò)和引入長短時(shí)記憶模塊(LSTM)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),識別效果得到了進(jìn)一步提升,在許多(尤其是近場)語音識別任務(wù)上達(dá)到了可以進(jìn)入人們?nèi)粘I畹臉?biāo)準(zhǔn)。于是我們看到以Apple Siri為首的智能語音助手、以Echo為首的智能硬件入口等等。而這些應(yīng)用的普及,又進(jìn)一步擴(kuò)充了語料資源的收集渠道,為語言和聲學(xué)模型的訓(xùn)練儲備了豐富的燃料,使得構(gòu)建大規(guī)模通用語言模型和聲學(xué)模型成為可能(見圖1-30)。

圖1-30 語音技術(shù)發(fā)展歷程
自然語言處理
人類的日常社會活動中,語言交流是不同個(gè)體間信息交換和溝通的重要途徑。因此,對機(jī)器而言,能否自然地與人類進(jìn)行交流、理解人們表達(dá)的意思并做出合適的回應(yīng),被認(rèn)為是衡量其智能程度的一個(gè)重要參照,自然語言處理也因此成為了繞不開的議題。
早在20世紀(jì)50年代,隨著電子計(jì)算機(jī)的出現(xiàn),產(chǎn)生了許多自然語言處理的任務(wù)需求,其中最典型的就是機(jī)器翻譯。當(dāng)時(shí)存在兩派不同的自然語言處理方法:基于規(guī)則方法的符號派和基于概率方法的隨機(jī)派。受限于當(dāng)時(shí)的數(shù)據(jù)和算力,隨機(jī)派無法發(fā)揮出全部的功力,使得符號派的研究略占上風(fēng)。體現(xiàn)到翻譯上,人們認(rèn)為機(jī)器翻譯的過程是在解讀密碼,試圖通過查詢詞典來實(shí)現(xiàn)逐詞翻譯,這種方式產(chǎn)出的翻譯效果不佳、難以實(shí)用。當(dāng)時(shí)的一些成果包括1959年賓夕法尼亞大學(xué)研制成功的TDAP系統(tǒng)(Transformation and Discourse Analysis Project,最早的、完整的英語自動剖析系統(tǒng))、布朗美國英語語料庫的建立等。IBM-701計(jì)算機(jī)進(jìn)行了世界上第一次機(jī)器翻譯試驗(yàn),將幾個(gè)簡單的俄語句子翻譯成了英文。在這之后,蘇聯(lián)、英國、日本等國家也陸續(xù)進(jìn)行了機(jī)器翻譯試驗(yàn)。
1966年,美國科學(xué)院的語言自動處理咨詢委員會(ALPAC)發(fā)布了一篇題為《語言與機(jī)器》的研究報(bào)告,報(bào)告全面否定了機(jī)器翻譯的可行性,認(rèn)為機(jī)器翻譯不足以克服現(xiàn)有困難,難以投入使用。這篇報(bào)告澆滅了之前的機(jī)器翻譯熱潮,許多國家開始削減這方面的經(jīng)費(fèi)投入,許多相關(guān)研究被迫暫停,自然語言研究陷入低谷。許多研究者痛定思痛,意識到兩種語言間的差異不僅體現(xiàn)在詞匯上,還體現(xiàn)在句法結(jié)構(gòu)的差異上,為了提升譯文的可讀性,應(yīng)該加強(qiáng)語言模型和語義分析的研究。里程碑事件出現(xiàn)在1976年,加拿大蒙特利爾大學(xué)與加拿大聯(lián)邦政府翻譯局聯(lián)合開發(fā)了名為TAUM-METEO的機(jī)器翻譯系統(tǒng),提供天氣預(yù)報(bào)服務(wù)。這個(gè)系統(tǒng)每小時(shí)可以翻譯6萬~30萬個(gè)詞,每天可翻譯1000~2000篇?dú)庀筚Y料,并能夠通過電視、報(bào)紙立即公布。在這之后,歐盟、日本也紛紛開始研究多語言機(jī)器翻譯系統(tǒng),但并未取得預(yù)期的成效。
到了90年代,自然語言處理進(jìn)入了發(fā)展繁榮期。隨著計(jì)算機(jī)的計(jì)算速度和存儲量大幅增加、大規(guī)模真實(shí)文本的積累產(chǎn)生,以及被互聯(lián)網(wǎng)發(fā)展激發(fā)出的、以網(wǎng)頁搜索為代表的基于自然語言的信息檢索和抽取需求出現(xiàn),人們對自然語言處理的熱情空前高漲。在傳統(tǒng)的基于規(guī)則的處理技術(shù)中,人們引入了更多數(shù)據(jù)驅(qū)動的統(tǒng)計(jì)方法,將自然語言處理的研究推向了一個(gè)新高度。除了機(jī)器翻譯之外,網(wǎng)頁搜索、語音交互、對話機(jī)器人等領(lǐng)域都有自然語言處理的功勞。
進(jìn)入2010年以后,基于大數(shù)據(jù)和淺層、深層學(xué)習(xí)技術(shù),自然語言處理的效果得到了進(jìn)一步優(yōu)化。機(jī)器翻譯的效果進(jìn)一步提升,出現(xiàn)了專門的智能翻譯產(chǎn)品。對話交互能力被應(yīng)用在客服機(jī)器人、智能助手等產(chǎn)品中。這一時(shí)期的一個(gè)重要里程碑事件是IBM研發(fā)的Watson系統(tǒng)參加綜藝問答節(jié)目Jeopardy。比賽中Watson沒有聯(lián)網(wǎng),但依靠4TB磁盤內(nèi)200萬頁結(jié)構(gòu)化和非結(jié)構(gòu)化的信息,成功戰(zhàn)勝了人類選手取得冠軍,向世界展現(xiàn)了自然語言處理技術(shù)的實(shí)力(見圖1-31)。機(jī)器翻譯方面,谷歌推出的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(GNMT)相比傳統(tǒng)的基于詞組的機(jī)器翻譯(PBMT),英語到西班牙語的錯(cuò)誤率下降了87%,英文到中文的錯(cuò)誤率下降了58%,取得了非常強(qiáng)勁的提升(見圖1-32)。

圖1-31 IBM Watson在綜藝問答節(jié)目Jeopardy中獲勝

圖1-32 自然語言處理發(fā)展歷程
規(guī)劃決策系統(tǒng)
人工智能規(guī)劃決策系統(tǒng)的發(fā)展,一度是以棋類游戲?yàn)檩d體的。最早在18世紀(jì)的時(shí)候,就出現(xiàn)過一臺能下棋的機(jī)器,擊敗了當(dāng)時(shí)幾乎所有的人類棋手,包括拿破侖和富蘭克林等。不過最終被發(fā)現(xiàn)機(jī)器里藏著一個(gè)人類高手,通過復(fù)雜的機(jī)器結(jié)構(gòu)以混淆觀眾的視線,只是一場騙局而已。真正基于人工智能的規(guī)劃決策系統(tǒng)出現(xiàn)在電子計(jì)算機(jī)誕生之后,1962年時(shí),Arthur Samuel制作的西洋跳棋程序Checkers經(jīng)過屢次改進(jìn)后,終于戰(zhàn)勝了州冠軍。當(dāng)時(shí)的程序雖然還算不上智能,但已經(jīng)具備了初步的自我學(xué)習(xí)能力,這場勝利在當(dāng)時(shí)引起了巨大的轟動,畢竟是機(jī)器首次在智力的角逐中戰(zhàn)勝人類。這也讓人們發(fā)出了樂觀的預(yù)言:“機(jī)器將在十年內(nèi)戰(zhàn)勝人類象棋冠軍”。
但人工智能所面臨的困難比人們想象得要大很多,跳棋程序在此之后也敗給了國家冠軍,未能更上一層樓。而與跳棋相比,國際象棋要復(fù)雜得多,在當(dāng)時(shí)的計(jì)算能力下,機(jī)器若想通過暴力計(jì)算戰(zhàn)勝人類象棋棋手,每步棋的平均計(jì)算時(shí)長是以年為單位的。人們也意識到,只有盡可能減少計(jì)算復(fù)雜度,才可能與人類一決高下。于是,“剪枝法”被應(yīng)用到了估值函數(shù)中,通過剔除掉低可能性的走法,優(yōu)化最終的估值函數(shù)計(jì)算。在“剪枝法”的作用下,西北大學(xué)開發(fā)的象棋程序Chess4.5在1976年首次擊敗了頂尖人類棋手。進(jìn)入80年代,隨著算法上的不斷優(yōu)化,機(jī)器象棋程序在關(guān)鍵勝負(fù)手上的判斷能力和計(jì)算速度上大幅提升,已經(jīng)能夠擊敗幾乎所有的頂尖人類棋手。
到了90年代,硬件性能、算法能力等都得到了大幅提升,在1997年那場著名的人機(jī)大戰(zhàn)中,IBM研發(fā)的深藍(lán)(Deep Blue)戰(zhàn)勝國際象棋大師卡斯帕羅夫,人們意識到在象棋游戲中人類已經(jīng)很難戰(zhàn)勝機(jī)器了(見圖1-33)。

圖1-33 IBM深藍(lán)戰(zhàn)勝國際象棋大師卡斯帕羅夫
到了2016年,硬件層面出現(xiàn)了基于GPU、TPU的并行計(jì)算,算法層面出現(xiàn)了蒙特卡洛決策樹與深度神經(jīng)網(wǎng)絡(luò)的結(jié)合。4∶1戰(zhàn)勝李世石;在野狐圍棋對戰(zhàn)頂尖棋手60連勝;3∶0戰(zhàn)勝世界排名第一的圍棋選手柯潔,隨著棋類游戲最后的堡壘——圍棋也被AlphaGo所攻克,人類在完美信息博弈的游戲中已徹底輸給機(jī)器,只能在不完美信息的德州撲克和麻將中茍延殘喘。人們從棋類游戲中積累的知識和經(jīng)驗(yàn),也被應(yīng)用在更廣泛的需要決策規(guī)劃的領(lǐng)域,包括機(jī)器人控制、無人車等等。棋類游戲完成了它的歷史使命,帶領(lǐng)人工智能到達(dá)了一個(gè)新的歷史起點(diǎn)(見圖1-34)。

圖1-34 規(guī)劃決策系統(tǒng)發(fā)展歷程
人工智能的第三次浪潮
自1956年夏天在達(dá)特茅斯夏季人工智能研究會議上人工智能的概念被第一次提出以來,人工智能技術(shù)的發(fā)展已經(jīng)走過了60年的歷程。在這60年里,人工智能技術(shù)的發(fā)展并非一帆風(fēng)順,其間經(jīng)歷了20世紀(jì)50—60年代以及80年代的人工智能浪潮期,也經(jīng)歷過70—80年代的沉寂期。隨著近年來數(shù)據(jù)爆發(fā)式的增長、計(jì)算能力的大幅提升以及深度學(xué)習(xí)算法的發(fā)展和成熟,我們已經(jīng)迎來了人工智能概念出現(xiàn)以來的第三個(gè)浪潮期。然而,這一次的人工智能浪潮與前兩次的浪潮有著明顯的不同。基于大數(shù)據(jù)和強(qiáng)大計(jì)算能力的機(jī)器學(xué)習(xí)算法已經(jīng)在計(jì)算機(jī)視覺、語音識別、自然語言處理等一系列領(lǐng)域中取得了突破性的進(jìn)展,基于人工智能技術(shù)的應(yīng)用也已經(jīng)開始成熟。同時(shí),這一輪人工智能發(fā)展的影響已經(jīng)遠(yuǎn)遠(yuǎn)超出學(xué)界之外,政府、企業(yè)、非營利機(jī)構(gòu)都開始擁抱人工智能技術(shù)。AlphaGo對李世石的勝利更使得公眾開始認(rèn)識、了解人工智能。我們身處的第三次人工智能浪潮僅僅是一個(gè)開始。在人工智能概念被提出一個(gè)甲子后的今天,人工智能的高速發(fā)展為我們揭開了一個(gè)新時(shí)代的帷幕。
- 人工智能3.0:大智若愚
- 物聯(lián)網(wǎng)之云:云平臺搭建與大數(shù)據(jù)處理
- 人工智能安全
- 人工智能實(shí)戰(zhàn)進(jìn)階導(dǎo)引
- 物聯(lián)網(wǎng)+智能家居:移動互聯(lián)技術(shù)應(yīng)用
- 生活難題一鍵解:豆包實(shí)用全攻略
- 大模型實(shí)戰(zhàn):微調(diào)、優(yōu)化與私有化部署
- 妙用DeepSeek:創(chuàng)意落地速通指南
- 計(jì)算機(jī)視覺的對象級場景理解及其應(yīng)用
- 無人機(jī):知道這些就夠了
- 人機(jī)大戰(zhàn)
- 因果推斷導(dǎo)論
- 人工智能哲學(xué)
- 機(jī)器意識:人工智能如何為機(jī)器人裝上大腦
- 新時(shí)代體育服務(wù)業(yè)與人工智能融合研究