- 神經網絡與深度學習:基于MATLAB的仿真與實現
- 姚舜才 李大威編著
- 4152字
- 2023-08-25 11:44:54
第1章 神經網絡概述
在人工智能領域,神經網絡方法占有很重要的位置。神經網絡的研究人員將這種方法的靈感歸因于生物神經學的研究。一般認為這種方法是在1943年由心理學家W. McCulloch與數理邏輯學家W. Pitts提出的,他們在對人的神經元反射進行研究后,將其移植在分析和計算領域,提出了神經元的基本數學模型,這種模型被稱為M-P(McCulloch-Pitts)模型。所謂的M-P模型,是借鑒簡單生物神經元的結構和工作原理而抽象出來的一個計算模型。典型的生物神經元及其簡化結構如圖1-1所示。

圖1-1 典型的生物神經元及其簡化結構
生物神經元細胞由細胞體和突起兩部分組成。細胞體由細胞核、細胞質以及細胞膜構成。細胞膜主要包覆在細胞周圍,與細胞外部相隔離。由于人體中有電解質,因此細胞內外有一定的電位差;細胞質是含水大約80%的半透明物質。細胞核是整個細胞最重要的部分,是細胞的控制中心。
突起部分包括樹突、軸突和突觸。樹突是神經元延伸到外部的纖維狀結構。這些纖維狀結構在離神經元細胞體近的根部比較粗壯,然后逐漸分叉、變細,像樹枝一樣散布開來,所以稱為樹突。樹突的作用是接收來自其他神經元的刺激(輸入信號),然后將刺激傳送到細胞體中。軸突是神經元伸出的一條較長的突起,甚至可長達1m左右,其粗細均勻。軸突主要用來傳送神經元的刺激,也稱為神經纖維。突觸是神經元之間相互連接的部位,同時傳遞神經元的刺激。髓鞘則是包在軸突外部的膜,用來保護軸突,同時也起一定的“屏蔽”作用。
神經元對于外界刺激的響應模式呈現出閾值型非線性特性。外部的刺激是以電信號的形式作用于神經元的,如果電位的值沒有超過一定的閾值(-55mV)時,細胞就處在不興奮的狀態,稱為靜息狀態。當外部的刺激使神經元的電位超過閾值,神經元就開始興奮。神經元興奮后又恢復到靜息狀態時,會有一定時間的不響應期,也就是在一段時間內,即使神經元受到了新的刺激也不會產生興奮了。在度過不響應期之后,當新的刺激到來并突破閾值時,神經元才會再度響應。由此可以看出,神經元的響應是非線性的過程,而且與刺激的強度和頻度是有關系的。
刺激在被神經元響應后經過軸突傳送到其他神經元,再經過突觸與其他神經元接觸后進入其他神經元的樹突,相當于電子線路中的輸入/輸出接口。整個過程與信息傳遞的過程非常類似。單個神經元與成百上千個神經元的軸突相互連接,可以接收到很多樹突發來的信息,在接收到這些信息后神經元就對其進行融合和加工。這種融合和加工的方式是比較復雜的,但是有一點是肯定的,就是這種融合和加工的過程是非線性的。當很多個神經元按照這樣的方式連接起來后,就可以處理一些外部對神經元的刺激(輸入信號)了。

圖1-2 單個神經元模型
受到以上生物神經元工作方式的啟發,神經網絡的研究人員給出了單個神經元的模型,如圖1-2所示。單個人工神經元可以理解為一個多輸入單輸出的結構,每個輸入都有不同的權值,用w1,w2,…,wn表示,這就相當于真實神經元的樹突;加權后的輸入被統一集中起來進行信息的融合,在單個人工神經元里用簡單求和來表示各種加權后輸入信息的集中和融合;在進行信息融合后與一個閾值進行比較用來模仿真實神經元的閾值相應特性;而此后在進行信息處理時,通常由一個非線性函數來進行,這個非線性函數稱為活化函數,代表了神經元被激活的意義。在有些文獻中,活化函數也被稱為激活函數、變換函數、轉移函數等。在某些文獻里將活化函數稱為傳遞函數,這是不可取的!因為容易和其他相近學科的專有名詞混淆,例如控制理論里所說的傳遞函數和活化函數的意義就有很大區別!M-P模型可以通過一個帶參數的函數f(x,w)來實現對一些線性分類問題的處理。雖然其參數w(權重)一般由人設定,看上去沒有那么“智能”,但這種模型確實開啟了神經網絡學習模式的新時代。
在20世紀50年代末,F. Rosenblatt將單個的神經元網絡模型發展成為多層感知機。這時候這個模型就有了非常正式的名字“神經網絡”!雖然學術界的“反對派”仍然有些不屑地稱其為“感知機”,但這種模型的權值參數已經能夠自行調整,而且在分布式存儲、并行處理以及函數擬合方面顯示出強大的生命力,引起了眾多學者和工程人員的極大興趣,神經網絡的研究進入了一個高潮時期。到了1960年,斯坦福大學的Bernard Widrow教授開發了線性感知機,采用線性函數作為激活函數,并使用最小二乘法的思想對網絡的輸出進行評價,為此后的BP(Back Propagation,前饋型)神經網絡的產生奠定了基礎。
進入20世紀70年代后,有3種重要的神經網絡相繼誕生,分別是T. Kohonen提出的自組織特征映射(Self-Organizing Feature Map,簡稱SOFM或SOM)神經網絡、Paul Werbos提出的BP神經網絡以及S. Grossberg提出的自適應共振理論(Adaptive Resonance Theory,ART)。其中,BP神經網絡的出現堪稱劃時代的產物。雖然在當時人們沒有對其予以足夠的重視,但在隨后的幾年BP神經網絡有了很大的發展,不僅解決了在傳統領域中的難題,而且在很多工程領域都大顯身手,名噪一時。在BP神經網絡的引領下,RBF(徑向基)網絡也隨之誕生,在非線性擬合等諸多方面都有不俗的表現。
在BP神經網絡的基礎上,研究人員將反饋機制引入神經網絡,這直接導致了Hopfield(反饋型)神經網絡的產生。Hopfield神經網絡成功解決了旅行商問題,極大地推進了神經網絡的發展。神經網絡由此進入了蓬勃發展的時期。技術的發展總是相互促進的,Hopfield神經網絡引入了反饋機制對于系統的精度有好處,但是又不可避免地帶來了反饋結構的通病——整個系統的穩定性問題。由控制理論的基本原理可知,如果不能很好地解決穩定問題,系統將會陷入不穩定的振蕩狀態。Hopfield神經網絡是一種反饋型的神經網絡,這種問題也必然存在。這個問題促進了將神經網絡作為一個系統進行理論分析和探討方法的發展。此外,對于收斂和穩定性問題的不斷研究,神經網絡領域的專家們不斷從其他學科獲得靈感,援引其他學科的思想對神經網絡進行修正和改造,使神經網絡不斷提升自身的性能。例如模擬退火算法和玻耳茲曼機(Boltzmann Machine,BM)的出現,將隨機性的因素引入神經網絡,不但解決了當時在神經網絡中所存在的問題,而且孕育了深度學習神經網絡的基本思想,為深度學習神經網絡的產生奠定了良好的基礎。
整個20世紀80年代是神經網絡大發展的年代。在這個時期,各種結構形式的神經網絡不斷涌現,推動了多個學科的發展,可以說引領著各工程領域向智能化的方向不斷邁進。在幾種基本的神經網絡“硬核”基礎上,專家們同時又借鑒了其他學科的優勢,發展出了很多復合型的神經網絡,例如模糊神經網絡等。
當時的神經網絡是建立在樣本數據的基礎上的,因此神經網絡運行良好與否和樣本的情況密切相關,數據集樣本的數量和質量直接影響到神經網絡的運算質量。特別是當時的神經網絡對于很多問題的泛化控制并不盡如人意,這使得很多學者對于神經網絡自身的發展提出了質疑,在這些質疑聲中,以統計學習理論學派最為引人注目。他們從多個側面對神經網絡的運算機制進行評論,這些評論甚至上升到了哲學方法論的層面。統計學習理論學派在其重要的文獻中就指出:“在解決一個給定問題時,要設法避免把解決一個更為一般的問題作為其中間步驟”。同時還對神經網絡方法做出評價:“……同理,與SVM(支持向量機,由統計學習理論直接發展而來)相比,NN(神經網絡)不像一門科學,更像一門工程技巧……”,甚至對神經網絡的科學性提出了質疑(《統計學習理論的本質·不可證偽性理論》)。這些可以看作是統計學習理論與神經網絡為代表的智能計算方法的爭鳴。在此過程中,統計學習理論有了較大發展,由統計學習理論直接發展而來的支持向量機及其衍生方法在很長一段時間里占據了智能計算領域的主要陣地。
神經網絡計算學派對受到的挑戰進行了反思,進入21世紀以后,神經網絡計算學派調整了研究風格:不再將神經科學作為研究工作的指導思想。因為畢竟人類對于自身神經生理以及心理方面的情況也不甚了解。在吸收了統計學習理論學派卓有成效的研究成果基礎上,神經網絡計算學派也將自己的研究與傳統嚴謹的數學學科相結合。在2006年,深度信念網絡(Deep Belief Network,DBN)的推出標志著神經網絡的又一次復興。
在傳統的神經網絡中,為了能夠提高網絡的工作效率和精度不得不增加網絡的層數,但是網絡層數的增加會給尋優工作帶來困難,即使用傳統的梯度下降方法也很難找到最優解。此外,隨著神經網絡層數的增加,各種參數也會變得越來越多,在對網絡進行訓練時就需要大量的標簽數據。這樣的網絡結構和算法基本不具備解決小樣本問題的能力,而且其泛化性也比較差。這種多層結構的神經網絡被形象地稱為深度神經網絡,很多學者也由此認為深度神經網絡不能進行實際的應用,因為要訓練這樣的網絡簡直無從下手。Geoffrey Hinton提出的深度信念網絡將統計分析與神經網絡相結合,很好地解決了這個問題,為深度學習開辟了新的道路。對于多層結構的神經網絡,深度信念網絡采用了逐層訓練的方式,稱為“貪婪逐層預訓練”。這種訓練方式通過無監督方式對網絡進行逐層訓練,在訓練第n層時前面的層不變,首先訓練過的網絡層不會在新層引入后重新訓練,這樣就可以為網絡賦予較好的初始權值。隨后網絡進入了監督學習階段,在此階段需要對預訓練的網絡進行精調(微調)最終達到最優解。這種方法的一個直接結果就是產生了受限玻耳茲曼機。
有許多人在討論深度學習神經網絡與傳統神經網絡到底有什么區別。其實區別主要有兩個方面:一是在網絡結構上,深度學習神經網絡的結構比傳統神經網絡的結構復雜;二是在深度學習中,深度學習神經網絡對于統計學習的方法予以了高度的重視。憑借著這兩點,深度學習神經網絡將智能計算提升到了一個新的高度,也將神經網絡計算引向“深度”,并將其推上了又一個高峰。回顧神經網絡的發展歷程,可以簡單地用表1-1描述。
表1-1 神經網絡發展歷程簡表

當前,神經網絡學派“比其他機器學習領域(如核方法或貝葉斯統計)的研究人員更可能地引用大腦影響,但是大家不應該認為深度學習在嘗試模擬大腦”。事實上,神經網絡方法與其他機器學習方法的有效融合可能標志著各種高效算法正在相互交融,從哲學方法論角度來講,有效融合應該會比單純使用一種推理方法有更加強大的生命力,在實際的推理過程中會有更好的表現。在傳統的神經網絡算法基礎上將神經網絡計算不斷引向“深度”,構成深度學習神經網絡可能是今后神經網絡和機器學習的發展方向。因此本書加入了深度學習神經網絡的內容,使讀者能夠在一定程度上對神經網絡的發展有較為全面的了解,方便以后進行系統的學習。