pg游戏太坑了

書名： TensorFlow神經網絡到深度學習
作者名：張德豐編著
本章字數： 1933字
更新時間： 2021-05-19 18:18:37

3.7 優化函數

模型的優化對于傳統機器學習和深度學習都是很重要的，尤其是深度學習，在訓練過程中很可能需要解決一些更加困難的挑戰。目前來說，流行且使用較廣泛的優化算法有隨機梯度下降優化算法、基于沖量優化算法、Adadelta優化算法和Adam優化算法等，下面對這幾個優化算法進行介紹。

3.7.1 隨機梯度下降優化算法

普通的隨機梯度下降優化算法存在以下不足。

·很難選擇一個適當的學習率。選擇的學習率太小，收斂速度慢；選擇的學習率太大，參數波動太大，無法進入效果相對最優的優化點。

·可以采用滿足某些條件時調整學習率的方法，如迭代n次將學習率減半，或在訓練集準確率到某值時調整學習率。這些人工的調整必須事先定義好，雖然有所改進但是依然無法適應數據集的特征。

·有相同的學習率適用于所有參數更新。如果數據稀疏而且特征又區別很大，可能訓練到某個階段時，部分參數需要采用較小的學習率來調整，另外一部分參數需要較大的學習率來調整。如果都采用相同的學習率，可能最終無法收斂比較好的結果。

·除了局部最小值，普通的隨機梯度下降優化容易陷入“鞍點”，即梯度在所有方向上是零，但是這并不是一個最小點，甚至也不是一個局部最小點。“鞍點”示意圖如圖3-14所示，中間的亮點在兩個方向上的梯度都是零，但卻在一個“高坡”上。

圖3-14 “鞍點”示意圖

那么，怎么避免上述不足呢?可參照各種優化算法。

3.7.2 基于沖量優化算法

基于沖量優化算法（Monentum優化算法），其思想很簡單，相當于在原來更新參數的基礎上增加了“加速度”的概念。用山坡上的球作為例子，小球在往山谷的最低點滾動時，當前時間點的下降距離會積累前面時間點下降的距離，并在路上越來越快。參數的更新亦是如此：沖量在梯度連續指向同一個方向上時會增加，而在梯度方向變化時會減小。這樣，就可以更快收斂，并可以減小震蕩。

用公式表示為（γ為沖量更新值，一般取0.9）

從公式中可以看出，每次參數的更新會累積上一個時間點的沖量，所以在連續同一個方向更新梯度時，會加速收斂。

普通的隨機梯度下降優化算法在最小區域周圍的下降圖如圖3-15所示，基于沖量優化算法在最小區域周圍的下降圖如圖3-16所示。從圖3-15和圖3-16中可以看出，普通的隨機梯度下降優化算法始終是一個速度收斂，而基于沖量優化算法則會更加快速地收斂，并且在遇到一些局部最小點時，基于沖量優化算法會“沖”過這些比較小的“坑”，在某些程度上減少陷入局部最小優化點的概率。