- TensorFlow從零開始學
- 侯倫青等
- 3578字
- 2020-05-22 17:14:34
1.3 深度學習的發展歷程及應用
1.3.1 深度學習的發展歷程
作為機器學習的一個重要分支,深度學習近年來在全球范圍內都引起了廣泛的關注。然而深度學習在火熱之前已經經歷了一段漫長的發展歷程,接下來我們簡單了解一下。
1.起源
1943年,心理學家麥卡·洛克和數學邏輯學家皮茲發表論文《神經活動中內在思想的邏輯演算》,在此論文中提出了MP模型。MP模型是模仿神經元的結構和工作原理,構造出的一個基于神經網絡的數學模型,本質上是一種“模擬人類大腦”的神經元模型(這里有必要說明的是,我們說的“模擬”,更準確的說法其實應該是“參考”,計算機領域的“人工神經網絡”的確受到了生物學上的“神經網絡”的啟發,但是兩者相差萬里,沒有直接的可比性)。MP模型作為人工神經網絡的起源,開創了人工神經網絡的新時代,也奠定了神經網絡模型的基礎。
1949年,加拿大著名心理學家唐納德·赫布在《行為的組織》中提出了一種基于無監督學習的規則——海布學習規則(Hebb Rule)。海布學習規則模仿人類認知世界的過程建立一種“網絡模型”,該網絡模型針對訓練集進行大量的訓練并提取訓練集的統計特征,然后按照樣本的相似程度進行分類,把相互之間聯系密切的樣本分為一類,這樣就把樣本分成了若干類。海布學習規則與“條件反射”機理一致,為以后的神經網絡學習算法奠定了基礎,具有重大的歷史意義。
20世紀50年代末,在MP模型和海布學習規則的研究基礎上,美國科學家羅森·布拉特發現了一種類似于人類學習過程的學習算法——感知器學習,并于1957年正式提出了由兩層神經元組成的神經網絡,即“感知器”。感知器本質上是一種線性模型,可以對輸入的訓練集數據進行二分類,且能夠在訓練集中自動更新權值。感知器的提出吸引了大量科學家研究人工神經網絡,對神經網絡的發展具有里程碑式的意義。
但隨著研究的深入,人們發現了感知器模型甚至無法解決最簡單的線性不可分問題(例如異或問題)。由于這一不足,再加上沒有及時推進多層神經網絡,20世紀70年代,人工神經網絡進入第一個寒冬期,人工神經網絡的發展也受到了很大的阻礙甚至質疑。
2.發展
1982年,著名物理學家約翰·霍普菲爾德發明了Hopfield神經網絡。Hopfield神經網絡是一種結合存儲系統和二元系統的循環神經網絡。Hopfield網絡也可以模擬人類的記憶,根據選取的激活函數不同,有連續型和離散型兩種類型,分別用于優化計算和聯想記憶。但該算法由于容易陷入局部最小值的缺陷而并未在當時引起很大的轟動。
直到1986年,深度學習之父杰弗里·辛頓提出了一種適用于多層感知器的反向傳播算法,即BP算法。BP算法在傳統神經網絡正向傳播的基礎上,增加了誤差的反向傳播過程,在反向傳播過程中不斷地調整神經元之間的權值和閾值,直到輸出的誤差減小到允許范圍之內,或達到預先設定的訓練次數為止。BP算法解決了非線性分類問題,讓人工神經網絡再次引起了人們廣泛的關注。
但是20世紀80年代計算機的硬件水平有限,運算能力跟不上,以及當神經網絡的層數增加時,BP算法會出現“梯度消失”等問題,使得BP算法的發展受到了很大的限制。再加上20世紀90年代中期,以SVM為代表的淺層機器學習算法被提出,并在分類問題、回歸問題上均取得了很好的效果,其原理相較于神經網絡模型具有更好的可解釋性,所以人工神經網絡的發展再次進入了瓶頸期。
3.爆發
2006年,杰弗里·辛頓及其學生魯斯蘭·薩拉赫丁諾夫正式提出了深度學習的概念。他們在世界頂級學術期刊Science發表的一篇文章中詳細地給出了“梯度消失”問題的解決方案——通過無監督學習逐層訓練算法,再使用有監督的反向傳播算法進行調優。該方法的提出,立即在學術圈引起了巨大的反響,以斯坦福大學、多倫多大學為代表的眾多世界知名高校紛紛投入巨大的人力、財力進行深度學習領域的相關研究,而后又迅速蔓延到工業界。
2012年,在著名的ImageNet圖像識別大賽中,杰弗里·辛頓領導的小組以深度學習模型AlexNet一舉奪冠。AlexNet采用ReLU激活函數,極大程度地解決了梯度消失問題,并采用GPU極大提高模型的運算速度。同年,由斯坦福大學著名的吳恩達教授和世界頂尖計算機專家Jeff Dean共同主導的深度神經網絡——DNN技術在圖像識別領域取得了驚人的成績,在ImageNet評測中成功地把錯誤率從26%降低到了15%。深度學習技術在世界大賽的脫穎而出,再次進一步吸引了學術界和工業界對深度學習的關注。
隨著深度學習技術的不斷進步及計算機硬件算力的不斷提升,2014年,Facebook基于深度學習技術的DeepFace項目,在人臉識別方面的準確率已經能達到97%以上,跟人類識別的準確率幾乎沒有差別。這樣的結果也再一次證明了深度學習技術在圖像識別方面的一騎絕塵。
2016年,谷歌公司基于深度強化學習開發的AlphaGo以4∶1的比分戰勝了國際頂尖圍棋高手李世石,深度學習的熱度一時無兩。后來,AlphaGo又接連和眾多世界級圍棋高手過招,均取得了完勝。這也證明了在圍棋界,基于深度學習技術的機器人幾乎已經超越了人類。
2017年,基于深度強化學習技術的AlphaGo升級版AlphaGo Zero橫空出世,采用“從零開始”“無師自通”的學習模式,以100:0的比分輕而易舉地打敗了之前的AlphaGo。除了圍棋,它還精通國際象棋等其他棋類游戲,可以說是真正的棋類“天才”。此外在這一年,深度學習的相關技術也在醫療、金融、藝術、無人駕駛等多個領域均取得了顯著的成果。所以,也有專家把2017年看成深度學習甚至是人工智能發展最為突飛猛進的一年。
深度學習發展到當前已經越來越趨于成熟,因此,無論是科研還是應用,大家也越來越理性,而不是像早些時候,把深度學習視為“萬能”,去盲目跟風。當然,深度學習領域也還有許多問題需要解決,還有很多有趣、有挑戰性的方向可以研究。
1.3.2 深度學習的應用
深度學習技術不光在學術界,在工業界也有重大突破和廣泛應用,其中自然語言處理、語音識別和圖像處理應用最廣泛。接下來,我們分別來看一下這三個領域的發展現狀。
1.自然語言處理
自然語言處理(NLP)是一門交叉科學,旨在讓計算機能夠“讀懂”人類的語言。自然語言處理的基礎研究包括分詞、詞性標注、實體識別、句法分析、語義分析以及文本向量化表示等,其應用領域有文檔分類、信息檢索、對話機器人、機器翻譯、語音識別和合成等。傳統的自然語言處理主要利用語言學領域本身的知識結合統計學的方法來獲取語言知識。后來伴隨著機器學習淺層模型的發展(如SVM、邏輯回歸等),自然語言處理領域的研究取得了一定的突破,但在語義消歧、語言的理解等方面仍然顯得力不從心。近年來,深度學習相關技術(DNN、CNN、RNN等)取得了顯著的進展,在自然語言處理方面的應用也展現出了明顯的優勢。
從算法上來看,詞向量(Word Vector)作為深度學習算法在自然語言領域的先驅,有著極其廣泛的應用場景,其基本思想是把人類語言中的詞盡可能完整地轉換成計算機可以理解的稠密向量,同時要保證向量的維度在可控的范圍之內。在Bahdanau等人利用LSTM模型結合一些自定義的語料,解決了傳統模型的“Out of dictionary word”問題之后,基于深度學習的自然語言處理較于傳統方法的優勢更為明顯。而谷歌公司于2018年10月底發布的BERT模型,算是一個里程碑。目前,基于深度學習的自然語言處理在文本分類、機器翻譯、智能問答、推薦系統及聊天機器人等方向都有著極為廣泛的應用。
2.語音識別與合成
語音相關的處理其實也屬于自然語言處理的范疇,目前主要是語音合成(Text to Speech,TTS)和語音識別(Automated Speech Recognition,ASR)。語音識別應該是大家最為熟知的、也是應用最為廣泛的。同自然語言處理類似,語音識別也是人工智能和其他學科的交叉領域,其所涉及的領域有模式識別、信號處理、概率論、信息論、發聲原理等。近年來,隨著深度學習技術的興起,語音識別取得顯著的進步,基于深度學習的語音技術不僅從實驗室走向了市場,更得到了谷歌、微軟、百度及科大訊飛等眾多科技公司的青睞。語音輸入法、家用聊天機器人、醫療語音救助機、智能語音穿戴設備等具體的應用場景層出不窮。
事實上,在深度學習算法還未普及之前的很長一段時間,語音識別系統大多采用高斯混合模型(GMM)這一機器學習淺層模型完成數據的量化和建模。由于該模型可以精確地量化訓練集并對數據有較好的區分度,所以長期在語音識別領域占主導地位。直到2011年,微軟公司推出了基于深度學習的語音識別系統,模擬人類大腦分層提取數據特征,使得樣本特征之間的聯系更加密切,完美地克服了GMM模型在高維數據處理方面的不足。目前,基于深度神經網絡的模型仍然廣泛應用在語音相關的各個領域中。
3.圖像領域
事實上,圖像領域目前算是深度學習應用最為成熟的領域。也正是由于深度學習算法在ImageNet圖像識別大賽中遠超其他機器學習算法,以巨大優勢奪魁,才推動了深度學習發展的第三次浪潮。目前,通過卷積神經網絡(CNN)構建的圖像處理系統能夠有效地減小過擬合、很好地識別大像素數圖像。融合GPU加速技術后,神經網絡在實際中能夠更好地擬合訓練數據,更快、更準確地識別大部分的圖片。總而言之,深度學習模型和圖像處理技術的完美結合,不僅能夠提高圖像識別的準確率,同時還可以在一定程度上提高運行效率,減少一定的人力成本。
- 32位嵌入式系統與SoC設計導論
- Unreal Engine:Game Development from A to Z
- 構建高質量的C#代碼
- Seven NoSQL Databases in a Week
- TIBCO Spotfire:A Comprehensive Primer(Second Edition)
- 自動控制原理
- 數據庫原理與應用技術學習指導
- 大數據時代
- Photoshop CS5圖像處理入門、進階與提高
- C++程序設計基礎(上)
- 網絡脆弱性掃描產品原理及應用
- RealFlow流體制作經典實例解析
- Mastering MongoDB 4.x
- DynamoDB Applied Design Patterns
- 分布式Java應用