ChatGPT原理與架構:大模型的預訓練、遷移和中間件編程
這是一本深入闡述ChatGPT等大模型的工作原理、運行機制、架構設計和底層技術,以及預訓練、遷移、微調和中間件編程的著作。它將幫助我們從理論角度全面理解大模型,從實踐角度更好地應用大模型,是作者成功訓練并部署大模型的過程復盤和經驗總結。第1章介紹了ChatGPT等大模型的發展歷程、技術演化和技術棧等基礎知識;第2~5章深入講解了Transformer的架構原理,并從GPT-1的生成式預訓練到GPT-3的稀疏注意力機制詳細描述了GPT系列的架構演進;6~8章從底層技術實現的角度講解了大語言模型的訓練策略、數據處理方法,以及如何利用策略優化和人類反饋來進一步提升模型的表現;第9~10章首先詳細講解了大語言模型在垂直領域的低算力遷移方法,并給出了醫療和司法領域的遷移案例,然后講解了大模型的中間件編程;第11章對GPT的未來發展趨勢進行預測,探討數據資源、自回歸模型的局限性,以及大語言模型時代具身智能的可行路線。
·10.6萬字