- 大語言模型:原理、應用與優化
- 蘇之陽 王錦鵬 姜迪 宋元峰
- 445字
- 2024-12-18 17:06:25
2.1 Seq2Seq結構
Seq2Seq(Sequence-to-Sequence)[14]網絡結構是近些年深度學習中的重要創新之一。它將自然語言處理中的任務(如文本摘要、機器翻譯、對話系統等)看作從一個輸入序列到另外一個輸出序列的映射,然后通過一個端到端的神經網絡來直接學習序列的映射關系。Seq2Seq也是編碼器-解碼器結構的雛形。
圖2-1為Seq2Seq結構的示意圖,它實現了將輸入序列x1,x2,…,xT映射到輸出序列y1,y2,…,yT′的操作。其中,編碼器可將輸入序列編碼成一個固定長度的向量表示,而解碼器可將該向量表示解碼成目標輸出。原始Seq2Seq的編碼器和解碼器部分由循環神經網絡(Recurrent Neural Network,RNN)來實現。

圖2-1 Seq2Seq結構示意
以機器翻譯為例,假設輸入的句子為,我們首先將句子中每個單詞映射成詞嵌入,從而得到向量序列為
,目標輸出序列為
,其中n和m為序列長度。編碼器將輸入轉化成語義編碼C,處理第i個時間步輸入wi的數學表示為:

其中,i∈[1,n],最后時刻的狀態輸出為C,即C=hn。解碼器根據C輸出最終的目標序列,其數學表示為:

許多自然語言處理任務都可以應用編碼器-解碼器結構,如機器翻譯、語音識別、文本摘要和對話系統等。