- 深度學習原理與應用
- 周中元 黃穎 張誠 周新
- 575字
- 2021-04-30 22:05:41
4.2 輸入層
卷積神經網絡的輸入層可以直接接收二維視覺模式,如二維圖像,而且不需要再附上像以往機器學習那樣由人工事先完成特征設計和提取。特征的提取將由機器自動完成,這是卷積神經網絡的一大亮點,極大地減輕了工作量。輸入層在接收輸入的二維視覺模式后,將輸入數據存入二維數值矩陣,比如輸入一張彩色圖片需要記錄二維像素點和RGB通道的多個二維數值矩陣。
與其他神經網絡算法類似,由于使用梯度下降算法進行學習,卷積神經網絡的輸入數值需要進行預處理,預處理方法包括取均值、歸一化、PCA/白化等,目的是統一輸入數據規格、統一量綱,避免超出激活函數的定義范圍,避免出現梯度消失和爆炸等問題。這部分內容見9.2節“數據預處理”。
卷積神經網絡輸入的圖像通常要求是標準大小,且圖幅不宜過大。標準大小是為了處理的規范化,控制篇幅的原因是,圖幅的增加帶來的計算量的增加是數個平方倍數。輸入一張尺寸僅為32像素×32像素的彩色圖片,由于需要識別彩色,所以需要為每個像素設三個顏色通道:紅色、綠色、藍色(RGB)。為了完成輸入,神經網絡中的第一層需要32×32×3=3072個用于區別輸入數據的連接權重。連接權重的增長幾乎是以尺寸的平方數方式增長,如果將圖像大小按照公安部規定的身份證制證照片,其尺寸為35mm×25mm,413像素×295像素,那么,需要連接權重365505個,這還僅僅是一層的連接權重。由此可見,尺寸稍大就會帶來巨大的計算量的壓力。