pg星旅淘金游戏攻略

書名：大語言模型：原理、應用與優化
作者名：蘇之陽王錦鵬姜迪宋元峰
本章字數： 445字
更新時間： 2024-12-18 17:06:25

2.1 Seq2Seq結構

Seq2Seq（Sequence-to-Sequence）[14]網絡結構是近些年深度學習中的重要創新之一。它將自然語言處理中的任務（如文本摘要、機器翻譯、對話系統等）看作從一個輸入序列到另外一個輸出序列的映射，然后通過一個端到端的神經網絡來直接學習序列的映射關系。Seq2Seq也是編碼器-解碼器結構的雛形。

圖2-1為Seq2Seq結構的示意圖，它實現了將輸入序列x₁，x₂，…，x_T映射到輸出序列y₁，y₂，…，y_T′的操作。其中，編碼器可將輸入序列編碼成一個固定長度的向量表示，而解碼器可將該向量表示解碼成目標輸出。原始Seq2Seq的編碼器和解碼器部分由循環神經網絡（Recurrent Neural Network，RNN）來實現。

圖2-1 Seq2Seq結構示意

以機器翻譯為例，假設輸入的句子為，我們首先將句子中每個單詞映射成詞嵌入，從而得到向量序列為，目標輸出序列為，其中n和m為序列長度。編碼器將輸入轉化成語義編碼C，處理第i個時間步輸入w_i的數學表示為：

其中，i∈[1，n]，最后時刻的狀態輸出為C，即C=h_n。解碼器根據C輸出最終的目標序列，其數學表示為：

許多自然語言處理任務都可以應用編碼器-解碼器結構，如機器翻譯、語音識別、文本摘要和對話系統等。

官术网_书友最值得收藏!

大語言模型：原理、應用與優化

2.1 Seq2Seq結構