- 揭秘大模型:從原理到實戰
- 文亮 江維
- 595字
- 2025-04-17 18:46:09
本書結構
本書共分為12章,內容涵蓋大模型的全鏈路。
第1章概述大模型的發展歷史以及ChatGPT的智能來源——數據壓縮理論。
第2章詳細介紹傳統語言模型,包括循環神經網絡(RNN)、長短期記憶(LSTM)網絡、門控循環單元(GRU),并介紹大模型的基礎結構——Transformer。本章將通過一個機器翻譯的案例演示如何利用Transformer完成自然語言處理的任務。
第3章介紹OpenAI GPT系列大模型。本章從GPT-1到GPT-4逐步解析GPT系列大模型的原理和特點。
第4章介紹清華大學通用預訓練模型——GLM。本章分析GLM的技術原理,并介紹如何對GLM模型進行微調。
第5章介紹Meta開源大模型——Llama。本章分析Llama的技術原理,包括預訓練數據、模型結構和優化器等,并介紹其改進版本Llama 2。
第6章介紹大模型參數高效微調方法,即如何通過訓練少量參數來實現可與全參數微調媲美的效果。
第7章介紹大模型指令微調方法,即如何通過指令微調讓大模型更好地理解人類的意圖。
第8章介紹大模型訓練優化方法,即如何通過混合精度訓練和并行訓練等技術提高大模型的訓練速度。
第9章介紹大模型推理優化方法,即如何通過推理優化提高大模型的推理效率和生成質量。
第10章介紹AIGC和大模型結合的方法,即如何將AIGC應用到大模型中。本章將重點介紹流行的Stable Diffusion模型,包括其技術原理及其應用場景。
第11章介紹大模型和推薦系統結合的方法,即如何利用大模型為推薦系統賦能。
第12章介紹構建私有大模型的方法,即基于開源的大模型,在自己的數據上進行微調,讓大模型具備新的能力。