冰球突破豪华版大奖图片

書名：深度學習自然語言處理實戰
作者名：開課吧組編張楠蘇南王貴陽等編著
本章字數： 863字
更新時間： 2021-04-22 17:09:12

2.3 PyTorch自動求梯度

深度學習的過程中，在對代價函數（loss）進行優化時需要計算梯度（gradient），Py-Torch提供的autograd（自動求梯度）包能夠根據輸入的數據和前向傳播過程自動構建計算圖，并執行反向傳播。

2.3.1 基本概念

在PyTorch中，torch.Tensor是autograd包的核心類，如果將其屬性.requires_ grad設置為True，它將開始追蹤對Tensor的所有操作，即可以利用鏈式法則（Chain Rule）進行梯度傳播（Gradient Propagation）。完成計算后，可以調用.backward()來自動完成所有梯度的計算。這個Tensor的梯度將累積到.grad屬性中。例如，如果x是一個Tensor，x.requires_grad=True，然后x.grad是另一個Tensor，x.grad將累計x的所有的梯度。

如果在后期需要停止對Tensor歷史記錄的追蹤，可以調用.detach()函數，它會將Tensor與其計算的歷史記錄做分離，并防止將來的計算被繼續追蹤，此時，梯度就不會進行傳播了。如果需要設置一些操作代碼使其不被跟蹤，可以用with torch.no_grad()將具體的代碼塊包裝起來。這種方法在評估（Evaluate）模型時用處很大，這是因為在評估模型的階段不需要用到可訓練參數（require_grad = True）部分的梯度。

Function也是autograd包中很重要的一個類。通過將Tensor和Function進行連接可以構建一個保存整個計算過程歷史信息的有向無環圖（Directed Acyclic Graph，DAG）。每個Tensor都會有一個.grad_fn屬性，這個屬性會保存創建該Tensor的Function，即說明這個Tensor是否由某些運算得到。如果是用戶自己創建的Tensor，那么.grad_fn屬性將是None。