财神会彩票app正规吗

書名： DeepSeek實(shí)戰(zhàn)：從提示詞到部署和實(shí)踐
作者名：張成文編著
本章字?jǐn)?shù)： 1564字
更新時(shí)間： 2025-06-03 14:17:26

1.2.2　DeepSeek模型的發(fā)展脈絡(luò)

自2023年成立以來(lái)，DeepSeek在短短兩年內(nèi)推出了一系列具有里程碑意義的大模型，涵蓋了代碼生成、自然語(yǔ)言處理、數(shù)學(xué)推理、視覺(jué)–語(yǔ)言理解等領(lǐng)域。這些模型不僅在技術(shù)上實(shí)現(xiàn)了突破，還在開(kāi)源生態(tài)中樹(shù)立了新的標(biāo)桿，為人工智能的普惠化發(fā)展做出了重要貢獻(xiàn)。

1．DeepSeek LLM：長(zhǎng)期主義拓展開(kāi)源

2024年1月，DeepSeek推出了包含670億參數(shù)的DeepSeek LLM，標(biāo)志著DeepSeek走向“以長(zhǎng)期主義擴(kuò)展開(kāi)源”的新路線[2]。DeepSeek LLM開(kāi)源了7B、67B的基座版和對(duì)話版模型，在推理、編碼、數(shù)學(xué)和中文理解方面超越了開(kāi)源模型領(lǐng)頭羊LLaMa2-7B-Base模型，DeepSeek LLM 67B Base模型更是在中文表現(xiàn)上超越了閉源的GPT-3.5模型。

2．DeepSeek-Coder：代碼大模型的開(kāi)源先鋒

2024年1月，DeepSeek發(fā)布了首個(gè)開(kāi)源代碼大模型DeepSeek-Coder[3]。該模型從零開(kāi)始在涵蓋2萬(wàn)億Token的數(shù)據(jù)集上訓(xùn)練，其中87%為代碼數(shù)據(jù)，13%為中英文自然語(yǔ)言數(shù)據(jù)。DeepSeek-Coder支持16K的上下文窗口，并引入了填空任務(wù)，以增強(qiáng)模型的代碼理解能力。

DeepSeek-Coder開(kāi)源了7B、33B系列模型。其中，7B參數(shù)版本在代碼能力上達(dá)到了與CodeLlama 34B模型的相同水平，并在國(guó)際權(quán)威數(shù)據(jù)集HumanEval上超越了已有的開(kāi)源模型，展現(xiàn)了強(qiáng)大的代碼生成和理解能力，如圖1-2所示。

3．DeepSeek Math：數(shù)學(xué)推理的佼佼者

2024年2月，以DeepSeek-Coder-v1.5-7B為基礎(chǔ)進(jìn)行訓(xùn)練開(kāi)發(fā)的DeepSeek Math發(fā)布[4]。該模型在數(shù)學(xué)相關(guān)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，并引入了GRPO強(qiáng)化學(xué)習(xí)算法（如圖1-3所示，3.3.1節(jié)進(jìn)行詳細(xì)介紹），與OpenAI所主導(dǎo)的PPO（Proximal Policy Optimization，近端策略優(yōu)化）算法相比，GRPO放棄了價(jià)值模型（Value Model），從分組得分中估計(jì)，顯著減少了訓(xùn)練資源。

DeepSeek Math-RL-7B在競(jìng)賽級(jí)MATH基準(zhǔn)測(cè)試中取得了51.7%的優(yōu)異成績(jī)，未依賴外部工具包和投票技術(shù)，性能接近Gemini-Ultra和GPT-4。這個(gè)成果展示了DeepSeek在數(shù)學(xué)推理領(lǐng)域的強(qiáng)大實(shí)力。

圖1-2　DeepSeek-Coder與其他模型在代碼能力上的對(duì)比[3]

圖1-3　GRPO和PPO對(duì)比[4]

4．DeepSeek-VL：視覺(jué)–語(yǔ)言模型的開(kāi)源探索

2024年3月，DeepSeek推出了開(kāi)源的視覺(jué)–語(yǔ)言模型DeepSeek-VL[5]。該模型采用混合視覺(jué)編碼器，能夠在固定Token預(yù)算內(nèi)高效處理高分辨率圖像，同時(shí)保持較低的計(jì)算開(kāi)銷。

DeepSeek-VL系列（包括1.3B和7B模型）在廣泛的視覺(jué)–語(yǔ)言基準(zhǔn)測(cè)試中達(dá)到了最先進(jìn)或可競(jìng)爭(zhēng)的性能，為多模態(tài)人工智能的發(fā)展提供了新的可能性。

5．DeepSeek-V2：采用MoE架構(gòu)，實(shí)現(xiàn)創(chuàng)新突破

2024年5月，DeepSeek-V2發(fā)布[6]。該模型在技術(shù)架構(gòu)上實(shí)現(xiàn)了一系列創(chuàng)新，在稀疏的MoE架構(gòu)上，以236B的總參數(shù)量和21B的激活參數(shù)量，達(dá)到了70B～110B稠密模型的性能水平，同時(shí)顯存消耗僅為同級(jí)別稠密模型的1/5～1/100。DeepSeek-V2在中文綜合能力上表現(xiàn)出同時(shí)期最強(qiáng)的水平，英文綜合能力與LLaMa3-70B相當(dāng)，整體性能接近GPT-4。

6．DeepSeek-Coder-V2：代碼能力的全面升級(jí)

2024年6月，DeepSeek-Coder-V2[7]發(fā)布。該模型基于DeepSeek-V2的MoE架構(gòu)，進(jìn)一步預(yù)訓(xùn)練了6萬(wàn)億Token，顯著提升了編碼和數(shù)學(xué)推理能力。該模型支持的編程語(yǔ)言從86種擴(kuò)展到338種，上下文長(zhǎng)度從16K擴(kuò)展到128K。在標(biāo)準(zhǔn)基準(zhǔn)評(píng)估中，DeepSeek-Coder-V2在編碼和數(shù)學(xué)任務(wù)上超越了GPT-4 Turbo、Claude 3 Opus和Gemini 1.5 Pro等閉源模型，展現(xiàn)了開(kāi)源模型的強(qiáng)大競(jìng)爭(zhēng)力。

7．DeepSeek-V3：性能和效率的雙重飛躍

2024年12月，DeepSeek-V3發(fā)布[8]，增加了審核和過(guò)濾等安全機(jī)制。DeepSeek-V3在知識(shí)類任務(wù)上接近Claude-3.5-Sonnet-1022，在數(shù)學(xué)競(jìng)賽中大幅超越其他模型，生成速度達(dá)到60 TPS（每秒事務(wù)處理量，即每秒處理60個(gè)Token），相比DeepSeek-V2.5，提升了3倍。其訓(xùn)練成本僅為557.6萬(wàn)美元，每100萬(wàn)個(gè)Token的價(jià)格為0.48美元，在同時(shí)期展現(xiàn)了極高的性價(jià)比。

8．DeepSeek-R1：推理模型的里程碑

2025年1月，DeepSeek-R1正式發(fā)布[9]。作為新一代推理模型，DeepSeek-R1直接將強(qiáng)化學(xué)習(xí)應(yīng)用于基礎(chǔ)模型，無(wú)須依賴監(jiān)督微調(diào)，具備自我驗(yàn)證、反思和生成長(zhǎng)思維鏈的能力。DeepSeek-R1在數(shù)學(xué)、代碼和推理任務(wù)上的性能可與OpenAI o1相媲美，標(biāo)志著DeepSeek在推理領(lǐng)域的重要突破。

在DeepSeek-R1-Zero的訓(xùn)練過(guò)程中，研究人員觀察到了一個(gè)特別有趣的現(xiàn)象：“啊哈（aha）”時(shí)刻的發(fā)生。如圖1-4所示，DeepSeek-R1-Zero模型在經(jīng)歷了一系列數(shù)學(xué)分析后，突然“頓悟”，并開(kāi)始重新評(píng)估自己的初始方法。這種獨(dú)特的行為是模型推理能力增長(zhǎng)和強(qiáng)化學(xué)習(xí)有效性的重要證明，模型確實(shí)能夠自主發(fā)展先進(jìn)的問(wèn)題解決策略。“啊哈”時(shí)刻有力地提醒了我們，強(qiáng)化學(xué)習(xí)有潛力解鎖人工系統(tǒng)中的新智能水平，為未來(lái)更加自主和適應(yīng)性強(qiáng)的模型鋪平了道路。

圖1-4　DeepSeek-R1-Zero的“啊哈”時(shí)刻[9]

官术网_书友最值得收藏!

DeepSeek實(shí)戰(zhàn)：從提示詞到部署和實(shí)踐

1.2.2 DeepSeek模型的發(fā)展脈絡(luò)

1.2.2　DeepSeek模型的發(fā)展脈絡(luò)