- DeepSeek實(shí)戰(zhàn):從提示詞到部署和實(shí)踐
- 張成文編著
- 1564字
- 2025-06-03 14:17:26
1.2.2 DeepSeek模型的發(fā)展脈絡(luò)
自2023年成立以來(lái),DeepSeek在短短兩年內(nèi)推出了一系列具有里程碑意義的大模型,涵蓋了代碼生成、自然語(yǔ)言處理、數(shù)學(xué)推理、視覺(jué)–語(yǔ)言理解等領(lǐng)域。這些模型不僅在技術(shù)上實(shí)現(xiàn)了突破,還在開(kāi)源生態(tài)中樹(shù)立了新的標(biāo)桿,為人工智能的普惠化發(fā)展做出了重要貢獻(xiàn)。
1.DeepSeek LLM:長(zhǎng)期主義拓展開(kāi)源
2024年1月,DeepSeek推出了包含670億參數(shù)的DeepSeek LLM,標(biāo)志著DeepSeek走向“以長(zhǎng)期主義擴(kuò)展開(kāi)源”的新路線[2]。DeepSeek LLM開(kāi)源了7B、67B的基座版和對(duì)話版模型,在推理、編碼、數(shù)學(xué)和中文理解方面超越了開(kāi)源模型領(lǐng)頭羊LLaMa2-7B-Base模型,DeepSeek LLM 67B Base模型更是在中文表現(xiàn)上超越了閉源的GPT-3.5模型。
2.DeepSeek-Coder:代碼大模型的開(kāi)源先鋒
2024年1月,DeepSeek發(fā)布了首個(gè)開(kāi)源代碼大模型DeepSeek-Coder[3]。該模型從零開(kāi)始在涵蓋2萬(wàn)億Token的數(shù)據(jù)集上訓(xùn)練,其中87%為代碼數(shù)據(jù),13%為中英文自然語(yǔ)言數(shù)據(jù)。DeepSeek-Coder支持16K的上下文窗口,并引入了填空任務(wù),以增強(qiáng)模型的代碼理解能力。
DeepSeek-Coder開(kāi)源了7B、33B系列模型。其中,7B參數(shù)版本在代碼能力上達(dá)到了與CodeLlama 34B模型的相同水平,并在國(guó)際權(quán)威數(shù)據(jù)集HumanEval上超越了已有的開(kāi)源模型,展現(xiàn)了強(qiáng)大的代碼生成和理解能力,如圖1-2所示。
3.DeepSeek Math:數(shù)學(xué)推理的佼佼者
2024年2月,以DeepSeek-Coder-v1.5-7B為基礎(chǔ)進(jìn)行訓(xùn)練開(kāi)發(fā)的DeepSeek Math發(fā)布[4]。該模型在數(shù)學(xué)相關(guān)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,并引入了GRPO強(qiáng)化學(xué)習(xí)算法(如圖1-3所示,3.3.1節(jié)進(jìn)行詳細(xì)介紹),與OpenAI所主導(dǎo)的PPO(Proximal Policy Optimization,近端策略優(yōu)化)算法相比,GRPO放棄了價(jià)值模型(Value Model),從分組得分中估計(jì),顯著減少了訓(xùn)練資源。
DeepSeek Math-RL-7B在競(jìng)賽級(jí)MATH基準(zhǔn)測(cè)試中取得了51.7%的優(yōu)異成績(jī),未依賴外部工具包和投票技術(shù),性能接近Gemini-Ultra和GPT-4。這個(gè)成果展示了DeepSeek在數(shù)學(xué)推理領(lǐng)域的強(qiáng)大實(shí)力。

圖1-2 DeepSeek-Coder與其他模型在代碼能力上的對(duì)比[3]

圖1-3 GRPO和PPO對(duì)比[4]
4.DeepSeek-VL:視覺(jué)–語(yǔ)言模型的開(kāi)源探索
2024年3月,DeepSeek推出了開(kāi)源的視覺(jué)–語(yǔ)言模型DeepSeek-VL[5]。該模型采用混合視覺(jué)編碼器,能夠在固定Token預(yù)算內(nèi)高效處理高分辨率圖像,同時(shí)保持較低的計(jì)算開(kāi)銷。
DeepSeek-VL系列(包括1.3B和7B模型)在廣泛的視覺(jué)–語(yǔ)言基準(zhǔn)測(cè)試中達(dá)到了最先進(jìn)或可競(jìng)爭(zhēng)的性能,為多模態(tài)人工智能的發(fā)展提供了新的可能性。
5.DeepSeek-V2:采用MoE架構(gòu),實(shí)現(xiàn)創(chuàng)新突破
2024年5月,DeepSeek-V2發(fā)布[6]。該模型在技術(shù)架構(gòu)上實(shí)現(xiàn)了一系列創(chuàng)新,在稀疏的MoE架構(gòu)上,以236B的總參數(shù)量和21B的激活參數(shù)量,達(dá)到了70B~110B稠密模型的性能水平,同時(shí)顯存消耗僅為同級(jí)別稠密模型的1/5~1/100。DeepSeek-V2在中文綜合能力上表現(xiàn)出同時(shí)期最強(qiáng)的水平,英文綜合能力與LLaMa3-70B相當(dāng),整體性能接近GPT-4。
6.DeepSeek-Coder-V2:代碼能力的全面升級(jí)
2024年6月,DeepSeek-Coder-V2[7]發(fā)布。該模型基于DeepSeek-V2的MoE架構(gòu),進(jìn)一步預(yù)訓(xùn)練了6萬(wàn)億Token,顯著提升了編碼和數(shù)學(xué)推理能力。該模型支持的編程語(yǔ)言從86種擴(kuò)展到338種,上下文長(zhǎng)度從16K擴(kuò)展到128K。在標(biāo)準(zhǔn)基準(zhǔn)評(píng)估中,DeepSeek-Coder-V2在編碼和數(shù)學(xué)任務(wù)上超越了GPT-4 Turbo、Claude 3 Opus和Gemini 1.5 Pro等閉源模型,展現(xiàn)了開(kāi)源模型的強(qiáng)大競(jìng)爭(zhēng)力。
7.DeepSeek-V3:性能和效率的雙重飛躍
2024年12月,DeepSeek-V3發(fā)布[8],增加了審核和過(guò)濾等安全機(jī)制。DeepSeek-V3在知識(shí)類任務(wù)上接近Claude-3.5-Sonnet-1022,在數(shù)學(xué)競(jìng)賽中大幅超越其他模型,生成速度達(dá)到60 TPS(每秒事務(wù)處理量,即每秒處理60個(gè)Token),相比DeepSeek-V2.5,提升了3倍。其訓(xùn)練成本僅為557.6萬(wàn)美元,每100萬(wàn)個(gè)Token的價(jià)格為0.48美元,在同時(shí)期展現(xiàn)了極高的性價(jià)比。
8.DeepSeek-R1:推理模型的里程碑
2025年1月,DeepSeek-R1正式發(fā)布[9]。作為新一代推理模型,DeepSeek-R1直接將強(qiáng)化學(xué)習(xí)應(yīng)用于基礎(chǔ)模型,無(wú)須依賴監(jiān)督微調(diào),具備自我驗(yàn)證、反思和生成長(zhǎng)思維鏈的能力。DeepSeek-R1在數(shù)學(xué)、代碼和推理任務(wù)上的性能可與OpenAI o1相媲美,標(biāo)志著DeepSeek在推理領(lǐng)域的重要突破。
在DeepSeek-R1-Zero的訓(xùn)練過(guò)程中,研究人員觀察到了一個(gè)特別有趣的現(xiàn)象:“啊哈(aha)”時(shí)刻的發(fā)生。如圖1-4所示,DeepSeek-R1-Zero模型在經(jīng)歷了一系列數(shù)學(xué)分析后,突然“頓悟”,并開(kāi)始重新評(píng)估自己的初始方法。這種獨(dú)特的行為是模型推理能力增長(zhǎng)和強(qiáng)化學(xué)習(xí)有效性的重要證明,模型確實(shí)能夠自主發(fā)展先進(jìn)的問(wèn)題解決策略。“啊哈”時(shí)刻有力地提醒了我們,強(qiáng)化學(xué)習(xí)有潛力解鎖人工系統(tǒng)中的新智能水平,為未來(lái)更加自主和適應(yīng)性強(qiáng)的模型鋪平了道路。

圖1-4 DeepSeek-R1-Zero的“啊哈”時(shí)刻[9]
- 玩轉(zhuǎn)ChatGPT:秒變AI文案創(chuàng)作高手
- 機(jī)器人構(gòu)建實(shí)戰(zhàn)
- 機(jī)器人設(shè)計(jì)與制作
- 基于機(jī)器學(xué)習(xí)的行為識(shí)別技術(shù)研究
- 機(jī)器人技術(shù)入門
- 科學(xué)儀器設(shè)備配置學(xué):人工智能時(shí)代的界面管理
- 深度強(qiáng)化學(xué)習(xí)實(shí)踐(原書第2版)
- 可解釋人工智能導(dǎo)論
- 智能無(wú)線機(jī)器人:人工智能算法與應(yīng)用
- Chatbot從0到1(第2版):對(duì)話式交互實(shí)踐指南
- AI會(huì)取代我們嗎?(The Big Idea 21世紀(jì)讀本)
- 人工智能導(dǎo)論
- 如何創(chuàng)造可信的AI
- 人類的終極命運(yùn)
- AI效率手冊(cè):從ChatGPT開(kāi)啟高效能