- DeepSeek實戰:從提示詞到部署和實踐
- 張成文編著
- 573字
- 2025-06-03 14:17:25
1.2 從GPT到DeepSeek
自OpenAI發布GPT(Generative Pre-trained Transformer,生成式預訓練轉換器)系列模型以來,生成式人工智能開啟了AGI(Artificial General Intelligence,通用人工智能)的新紀元。
2022年11月,OpenAI發布了ChatGPT,該模型能夠根據用戶的指令生成流暢、連貫且符合用戶需求的文本,幾乎可以媲美人類的寫作水平,引發了第一次大語言模型應用與研究熱潮。2023年3月至2024年5月,OpenAI相繼發布GPT-4、GPT-4V(ision)和GPT-4o模型,憑借其強大的多模態處理能力和自然語言生成水平,重塑了人們對人工智能潛力的認知。然而,其高昂的訓練成本和封閉的生態模式逐漸顯露出技術普惠化的瓶頸。在此背景下,我國的DeepSeek以“高性價比”和“高性能開源模型”為核心競爭力,成為全球大模型競爭中的一匹黑馬。
DeepSeek的崛起得益于其在模型架構、訓練策略方面的創新。不同于以往稠密架構的大語言模型,DeepSeek使用MoE(Mixture of Experts,混合專家)架構,通過動態激活部分參數實現高效推理,資源利用率顯著優于傳統稠密架構的大語言模型;而在訓練策略方面,DeepSeek提出了組相對策略優化(Group Relative Policy Optimization,GRPO)、四階段的強化學習訓練過程、多Token預測(Multi-Token Prediction,MTP)等方法,在顯著降低訓練所需資源的同時,提高模型表現。
從GPT到DeepSeek的演進歷程是人類在AGI探索道路上的一次范式突破。這場持續的技術進化正在重塑知識生產的底層邏輯,構建起人機協作的全新篇章。為方便讀者了解GPT系列模型和DeepSeek系列模型的發展脈絡,繪制了圖1-1,供讀者參考。

圖1-1 GPT系列模型與DeepSeek系列模型的發展脈絡