書名: 揭秘大模型:從原理到實戰作者名: 文亮 江維本章字數: 472字更新時間: 2025-04-17 18:46:16
2.2.1 循環神經網絡(RNN)
循環神經網絡(recurrent neural network,RNN)是一種處理序列數據的常用語言模型。與普通的前饋神經網絡(feedforward neural network,FNN)相比,循環神經網絡的特點是有循環連接,可以在序列中保留記憶。
循環神經網絡的每個時間步都有一個隱藏狀態(hidden state),它不僅接收當前時間步的輸入,還接收上一個時間步的隱藏狀態。這樣,隱藏狀態的輸出就包含當前和之前所有時間步的輸入信息。這種循環連接使得循環神經網絡可以適應不同長度的序列,并且能夠獲取序列的時序信息。圖2-1所示為循環神經網絡的模型結構。

圖2-1 循環神經網絡的模型結構
輸入當前t時刻的詞嵌入,t?1時刻計算出的隱向量為
,權重矩陣為
和
,輸出為
,表示為
?。?-3)
雖然循環神經網絡可以用于時間序列預測(根據過去的時間序列數據來預測未來的趨勢),如股票價格預測、天氣預測等,但是傳統的循環神經網絡在處理長序列時會遇到梯度消失和梯度爆炸的問題,這影響了其對長期依賴的建模能力。為了解決這個問題,研究人員提出了一些改進的循環神經網絡變體,如長短期記憶網絡和門控循環單元,它們通過引入門控機制來控制記憶狀態的更新,從而改善了自身對長期依賴的建模能力。