- 深度學習原理與應用
- 周中元 黃穎 張誠 周新
- 2347字
- 2021-04-30 22:05:33
1.4 人工神經網絡的發展簡史
深度學習概念是由英國出生的加拿大計算機學家和心理學家杰弗里·辛頓(Geoffrey Hinton)于2006年首次提出的,是人工神經網絡進一步發展的產物。因此,要了解深度學習的發展歷史,就首先要了解人工神經網絡的發展歷史。
人工神經網絡的研究始于20世紀40年代,距今已近八十年了!“McCulloch and Pitts.A logical calculus of the ideas immanent in nervous activity. Bulletin of mathematical Biophysics, Vol.5, No.4, pp.115-133, 1943”被認為是介紹人工神經網絡的第一篇論文,在這篇文章中,首次提出了人工神經元模型,即M-P模型。
加拿大著名的神經心理學家唐納德·赫布(Donald Olding Hebb)在其1949年出版的著作《The Organization of Behavior. New York, Wiley》中首次提出了學習規則,后稱“Hebb規則”,為神經網絡的學習算法奠定了基礎。Hebb學習規則與“條件反射”機理是一致的。
1958年,康奈爾大學的實驗心理學家弗蘭克·羅森布拉特(Frank Rosenblatt)在計算機上模擬實現了稱為“感知機”的神經網絡模型,“The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, Vol.65, No.6, pp.386-408, 1958”。這個模型可以通過訓練自動確定神經元的連接權重,神經網絡由此迎來了第一次熱潮。
感知機被認為能夠模擬人腦的工作,因此,美國國防部等政府機構紛紛贊助研究,神經網絡的風光持續了十多年。
1962年,大衛·休伯爾(David Hunter Hubel)和托斯坦·威澤爾(Torsten Wiesel)發表了“Receptive Fields, Binocular Interaction and Functional Architecture in the Cat's Visual Cortex”一文,第一次報道了由微電極記錄的單個神經元的響應特征,日后的深度學習網絡的架構類似于視覺皮質的層次結構。
1969年,人工智能之父馬文·明斯基(Marvin Lee Minsky)等人指出,感知機無法解決線性不可分問題“Minsky and Papert. Perceptrons: An Introduction to Computational Geometry. MIT press, 1969”。這一缺陷的公布,澆滅了人們對神經網絡的熱情,資助逐漸停止,神經網絡陷入了長達10年的低潮。
1974年,哈佛大學的博士沃波斯(Paul Werbos)證明了神經網絡在多加一層后,可以解決線性不可分問題,可惜的是,這一證明使神經網絡的研究陷入了低潮,沒有能夠拯救神經網絡“Paul Werbos. Beyond regression:New tools for prediction and analysis in the behavioral sciences. PhD thesis, Harvard University, 1974”。
直到20世紀80年代,通過全世界一批科學家不懈的努力,神經網絡終于引來了復興。
神經網絡的第一次復興,首功應該歸功于美國生物物理學家約翰·霍普菲爾德(John Joseph Hopfield)。他在加州理工學院擔任生物物理教授期間,于1982年發表了“Neural networks and physical systems with emergent collective computational abilities, Proceedings of the National Academy of Sciences, National Academy of Sciences, 1982, 2554-2558”一文,提出了全新的神經網絡—離散型Hopfield神經網絡,可以解決一大類模式識別問題,還可以解決一類組合優化問題。1984年霍普菲爾德用模擬集成電路構建出了連續型Hopfield神經網絡“Neurons with graded response have collective computational properties like those of two-state neurons, Proceedings of the National Academy of Sciences, National Academy of Sciences, 1984, 3088-3092”。霍普菲爾德提出的模型讓人們再次認識到人工神經網絡的威力和付諸應用的現實性,引起了巨大的反向。而且,由于霍普菲爾德的模型來自純粹的物理領域,之后吸引了大批物理學家加入人工神經網絡的研究。
1980年,日本科學家福島邦彥(Kunihiko Fukushima)在論文“K. Fukushima:Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position, Biological Cybernetics, 36[4], pp. 193-202 (April 1980).”首次提出了一個包含卷積層、池化層的神經網絡結構。1982年,福島邦彥等人提出了神經認知機,用計算機模擬了生物的視覺傳導通路,奠定了計算機視覺處理的技術基礎。“Fukushima and Miyake. Neocognitron: A new algorithm for pattern recognition tolerant of deformations and shifts in position. Pattern Recognition, Vol.15, No.6, pp. 455-469, 1982”。
1985年,美國心理學家魯姆哈特(David Rumelhart)、辛頓等人提出了誤差反向(BP)算法來訓練神經網絡,解決了多層神經網絡的訓練問題。BP算法在很長一段時間內一直作為神經網絡訓練的專用算法。“Rumelhart, David E., Hinton, Geoffrey E., Williams, Ronald J.Learning representations by back-propagating errors. Nature, 1985, 323(6088); 533-536”。
1995年,楊立昆(Yann LeCun,卷積神經網絡之父,Facebook AI研究院院長)等人將相當于生物初級視覺皮層的卷積層引入神經網,提出了卷積神經網絡。這種網絡模擬了視覺皮層中的細胞,根據特定細胞只對特定方向的邊緣發生反應的原理,使網絡分層完成對圖像的分類。“Bengio, Y.LeCun, Y.Convolutional networks for images, speech, and time-series, 1995”1998年,在這個基礎上,楊立昆在論文“Y.LeCun, L.Bottou, Y.Bengio, and P.Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, Vol.86, No.11, pp2278-2324, 1998”中提出了LeNet-5,將BP算法應用到這個神經網絡結構的訓練上,就形成了當代卷積神經網絡的雛形。
發展不會總是一帆風順的。
BP算法雖然可以完成多層神經網絡的分層訓練,但是,訓練時間過長,而且只能根據經驗設定參數,容易產生過擬合問題,以及會出現梯度消失問題,再加上支持向量機等淺層學習算法表現不俗,神經網絡又一次被人遺棄。
在這一輪低潮中,辛頓、加拿大計算機科學家約書亞·本吉奧(Yoshua Bengio)等人堅持不懈地研究神經網絡。2006年,辛頓和他的學生在Science雜志上發表的文章再次掀起了深度學習的浪潮。“Hinton, Geoffrey, Salakhutdinov, Ruslan. Reducing the Dimensionalityof Data with Neural Networks. Science, 2006(313)504-507”。
2009年,微軟研究院和辛頓合作研究基于深度神經網絡的語音識別,其誤差降低了25%。“NIPS Workshop: Deep Learning for Speech Recognition and Related Applications, Whistler, BC, Canada, Dec. 2009 (Organizers: Li Deng, Geoff Hinton, D.Yu)”
2011年,弗蘭克·塞得(Frank Seide)等人的研究成果在語音識別基準測試中獲得了壓倒性優勢。
2012年,辛頓又帶領他的學生,在Imagenet圖像識別大賽中,引入了全新的深層結構和dropout方法,在圖像識別領域分類問題取得驚人成就,將Top5錯誤率從26%降至15%“Krizhevsky, Alex, Sutskever, Ilya, Hinton, Geoffrey: Image Net Classification with Deep Convolutional Neural Networks. NIPS 2012: Neural Informatiopn Processing Systems, Lake Tahoe, Nevada, 2012”。2013年辛頓又提出Dropconnect處理過擬合方法,將錯誤率進一步降到了11%。到2016年,ILSVRC的圖像識別錯誤率已經達到了2.9%。
自2011年起,神經網絡在語音識別和圖像識別基準測試中獲得了極大成功,看到了實用的曙光,自此引來了神經網絡的第三次崛起。
第三次崛起與前面不同,因為有了硬件的支持和大量訓練數據的支持,其基礎更加扎實。
2014年,Ian Goodfellow等人發表了論文“Goodfellow, Ian J., Pouget-Abadie, Jean, Mirza, Mehdi, Xu, Bing, Warde-Farley, David, Ozair, Sherjil, Aaron, Bengio, Yoshua. Generative Adversarial Networks, 2014”,提出了生成對抗網絡,標志著GAN的誕生,并從2016年開始,成為學界、業界炙手可熱的概念,為創建無監督學習提供了強有力的算法框架。神經網絡的3個發展階段如圖1-11所示。

圖1-11 神經網絡的3個發展階段
2019年3月27日晚,ACM(國際計算機學會)宣布,有“深度學習三巨頭”之稱的楊立昆、辛頓、本吉奧共同獲得了2018年的圖靈獎,如圖1-12所示。

圖1-12 深度學習三巨頭Yann LeCun、Geoffrey Hinton、Yoshua Bengio
神經網絡經過70多年的發展,已經產生了各種類型的神經網絡,表1-1列出了主要的神經網絡種類。
表1-1 常見神經網絡種類一覽表

續表

續表

表格中的網絡簡圖圖例:
