- DeepSeek全場(chǎng)景指南
- 程希冀
- 2246字
- 2025-06-03 14:47:29
DeepSeek模型家族
作為中國 AI 領(lǐng)域的重要參與者,深度求索自成立以來,發(fā)展迅猛,推出了一系列令人矚目的模型。其創(chuàng)新能力和技術(shù)進(jìn)步不僅體現(xiàn)在模型的數(shù)量上,更在于每一代模型引入的革新理念和技術(shù)細(xì)節(jié),從而在 AI 領(lǐng)域建立了獨(dú)有的地位。其模型家族以高效性、普惠性及開源生態(tài)為核心,逐步構(gòu)建了覆蓋輕量級(jí)到超大規(guī)模的全場(chǎng)景技術(shù)體系,其中DeepSeek-V3與DeepSeek-R1系列成為標(biāo)志性成果,展現(xiàn)了深度求索在算法架構(gòu)、工程優(yōu)化及產(chǎn)業(yè)落地方面的綜合實(shí)力。
接下來,我將逐一介紹深度求索近兩年推出的主要模型。介紹時(shí)會(huì)涉及一些術(shù)語,如果暫時(shí)不理解也沒有關(guān)系,可以先跳過。
早期模型
DeepSeek-Coder(2023年11月):這是深度求索推出的首個(gè)大語言模型,專為軟件代碼生成和補(bǔ)全而設(shè)計(jì),可以幫助人們自動(dòng)生成程序代碼。此模型支持多種編程語言,提升了開發(fā)者的編程效率,綜合性能超越了當(dāng)時(shí)絕大多數(shù)主流的代碼生成模型(如CodeLlama),是最接近當(dāng)時(shí)頂級(jí)AI大模型GPT-4-Turbo能力的開源代碼模型。2023年6月,深度求索推出了它的繼任模型DeepSeek-Coder-V2。
DeepSeek LLM(2024年1月):參數(shù)達(dá)670億個(gè),在多項(xiàng)能力中超越了海外開源模型Llama270B,在中文理解能力上超過了GPT-3.5。2024年5月,又宣布開源第二代模型DeepSeek-V2。
DeepSeek-Math(2024年2月):專注于數(shù)學(xué)任務(wù),以其在復(fù)雜數(shù)學(xué)問題上的出色表現(xiàn),與OpenAI的GPT-4、谷歌的Gemini旗鼓相當(dāng)。
視覺語言模型
網(wǎng)上很多人說 DeepSeek 沒有多模態(tài)大模型,這其實(shí)是不對(duì)的。截至本書完稿時(shí),DeepSeek的推理大模型R1與非推理大模型V3不支持多模態(tài),但DeepSeek推出過專門的視覺語言模型(VL系列)。
DeepSeek-VL(2024年3月):開源多模態(tài)大模型,在數(shù)據(jù)構(gòu)造、模型結(jié)構(gòu)等方面有很多值得注意的點(diǎn)。
DeepSeek-VL2(2024年12月):采用混合專家(Mixture-of-Experts,MoE)架構(gòu),實(shí)現(xiàn)了性能的顯著提升。通過激活特定的專家網(wǎng)絡(luò),降低了計(jì)算成本,增加了生成吞吐量。DeepSeek-VL2在視覺問答、光學(xué)字符識(shí)別、文檔/表格/圖表理解及視覺定位等任務(wù)中展現(xiàn)了卓越的能力。
先進(jìn)模型
AI 發(fā)展很快,現(xiàn)階段的先進(jìn)模型將很快被超越,以下只是本書完稿時(shí)DeepSeek的主力模型:V3和R1系列。它們不僅代表了DeepSeek在大語言模型領(lǐng)域的技術(shù)高峰,也通過其顯著的成本效益和高性能設(shè)置了新的行業(yè)標(biāo)準(zhǔn)。DeepSeek的不斷創(chuàng)新和強(qiáng)大的開發(fā)能力使其在全球AI領(lǐng)域處于領(lǐng)先地位,吸引了廣泛的關(guān)注和討論。
DeepSeek-V3(2024年12月):本書完稿時(shí),這是DeepSeek最好的非推理大模型,這個(gè)模型不僅在參數(shù)規(guī)模上達(dá)到了6710億個(gè),其采用的MoE架構(gòu)和FP8混合精度訓(xùn)練顯著降低了訓(xùn)練成本。MoE架構(gòu)是DeepSeek模型的一大特色,通過將復(fù)雜任務(wù)分解為由多個(gè)專家處理,顯著提高了計(jì)算效率和模型性能。DeepSeek-V3用僅激活370億個(gè)參數(shù)來應(yīng)對(duì)特定任務(wù)的方式,極大地降低了計(jì)算成本。
通過引入多頭潛在注意力和多標(biāo)記預(yù)測(cè)機(jī)制,DeepSeek-V3設(shè)定了AI應(yīng)用的新標(biāo)準(zhǔn),尤其是在知識(shí)類任務(wù)和生成速度上的表現(xiàn)尤為突出。圖1-6展示了 DeepSeek-V3 的評(píng)測(cè)數(shù)據(jù)(摘自深度求索官方技術(shù)報(bào)告)。可以看到,DeepSeek-V3在很多評(píng)測(cè)項(xiàng)目上都取得了最好成績,整體上完全不亞于此時(shí)最強(qiáng)的非推理大模型GPT-4o 和Claude 3.5。

圖1-6 DeepSeek-V3模型性能(摘自深度求索官方技術(shù)報(bào)告)
DeepSeek-R1(2025年1月):DeepSeek-R1吸取了V3模型的成果,并通過強(qiáng)化學(xué)習(xí)增強(qiáng)了推理能力,展示了如何在低計(jì)算成本下實(shí)現(xiàn)高性能推理。這一模型在推理任務(wù)中的表現(xiàn)超越了許多現(xiàn)有的頂級(jí)模型,并達(dá)到與OpenAI o1 模型類似的水準(zhǔn)。為了訓(xùn)練 DeepSeek-R1,深度求索先訓(xùn)練了DeepSeek-R1-Zero 模型。R1-Zero 模型在預(yù)訓(xùn)練之后,是完全沒有經(jīng)過任何監(jiān)督微調(diào)的。從DeepSeek-V3 基座,直接進(jìn)行強(qiáng)化學(xué)習(xí),即可解鎖OpenAI o1 級(jí)別的思維鏈能力。而最終版本的DeepSeek-R1則是結(jié)合了部分冷啟動(dòng)數(shù)據(jù)、V3模型及R1-Zero模型的成果訓(xùn)練出來的,其評(píng)測(cè)數(shù)據(jù)如圖1-7所示。DeepSeek-R1 的推理能力強(qiáng)于 DeepSeek-V3,特別適合數(shù)學(xué)、代碼和復(fù)雜任務(wù)處理,知識(shí)理解與解答,教育輔導(dǎo)甚至思維訓(xùn)練。但是,DeepSeek-R1并非完勝 DeepSeek-V3 模型,其在某些無須復(fù)雜推理的領(lǐng)域上,它不如DeepSeek-V3,且幻覺率高于DeepSeek-V3。

圖1-7 DeepSeek-R1評(píng)測(cè)數(shù)據(jù)(摘自R1技術(shù)報(bào)告)
V3與R1模型對(duì)比
V3和R1模型雖然都是DeepSeek模型,但在使用體驗(yàn)上還是有明顯差異的。V3和R1模型的對(duì)比如表1-1所示。在本書接下來的內(nèi)容中,我會(huì)提及表格中的各項(xiàng)細(xì)節(jié)。
表1-1 V3和R1模型的對(duì)比

核心技術(shù)
混合專家(MoE)架構(gòu):這是DeepSeek多個(gè)模型都在使用的“降本增效”核心技術(shù),可以比喻為一個(gè)專家團(tuán),每個(gè)專家都有自己獨(dú)特的能力,專門應(yīng)對(duì)特定領(lǐng)域的問題。MoE架構(gòu)包含多個(gè)“專家”網(wǎng)絡(luò),每個(gè)專家專注于處理特定類型的輸入或特征。當(dāng)一個(gè)輸入進(jìn)來時(shí),一個(gè)“門控網(wǎng)絡(luò)”(Gate Network)會(huì)決定將路由輸入給哪些最合適的專家進(jìn)行處理,如圖1-8所示。

圖1-8 MoE架構(gòu)機(jī)制示意圖
強(qiáng)化學(xué)習(xí):強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是機(jī)器學(xué)習(xí)中的一個(gè)領(lǐng)域,強(qiáng)調(diào)如何基于環(huán)境行動(dòng),以取得最大化的預(yù)期利益。其靈感來源于心理學(xué)中的行為主義理論,即有機(jī)體如何在環(huán)境給予的獎(jiǎng)勵(lì)或懲罰的刺激下,逐步形成對(duì)刺激的預(yù)期,產(chǎn)生能獲得最大利益的習(xí)慣性行為。通過引入強(qiáng)化學(xué)習(xí),尤其是在DeepSeek-R1中,大模型能夠在復(fù)雜推理任務(wù)中實(shí)現(xiàn)更優(yōu)的決策能力。基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng)使訓(xùn)練過程更加高效,進(jìn)一步提升了模型的邏輯推理能力。
知識(shí)蒸餾:知識(shí)蒸餾就像智能模型的“傳幫帶”。我們先找一個(gè)開源的小模型作為“學(xué)生”,它體積小、參數(shù)少、能力有限。接著,我們讓這個(gè)小模型向DeepSeek“學(xué)習(xí)”——大模型用自己的專業(yè)知識(shí)和DeepSeek特有的數(shù)據(jù)來“教導(dǎo)”小模型,小模型則努力模仿大模型的回答和思考方式。
通過這個(gè)學(xué)習(xí)過程,小模型吸收了大模型的精華知識(shí),就像把大模型的智慧精華“蒸餾”到小模型中一樣。最終得到的DeepSeek-R1-Distill系列模型,雖然其體積依然小巧,卻擁有了更接近大模型的能力,可以在普通計(jì)算機(jī)、手機(jī)甚至邊緣設(shè)備上運(yùn)行。這就是知識(shí)蒸餾的魅力:讓小模型變得更聰明!知識(shí)蒸餾把原本只能在超級(jí)計(jì)算機(jī)上運(yùn)行的人工智能帶到日常設(shè)備中,讓更多人能夠便捷地使用AI技術(shù)。知識(shí)蒸餾過程示意圖如圖1-9所示。

圖1-9 知識(shí)蒸餾過程示意圖
- 智能機(jī)器的未來
- 人工智能:現(xiàn)代方法(第4版)
- Joy RL:強(qiáng)化學(xué)習(xí)實(shí)踐教程
- 深度學(xué)習(xí)必學(xué)的十個(gè)問題:理論與實(shí)踐
- PVCBOT零基礎(chǔ)機(jī)器人制作
- 擁抱AIGC
- 一本書讀懂大模型:技術(shù)創(chuàng)新、商業(yè)應(yīng)用與產(chǎn)業(yè)變革
- Unity虛擬現(xiàn)實(shí)開發(fā)實(shí)戰(zhàn)
- 智能制造:AI落地制造業(yè)之道
- 人工智能導(dǎo)論
- 創(chuàng)客智造:讓物體擁有“智慧”的物聯(lián)網(wǎng)創(chuàng)意設(shè)計(jì)與應(yīng)用(第3版)
- 機(jī)器人愛好者(第3輯)
- 與機(jī)器人共舞
- 深度學(xué)習(xí)視頻理解
- 人工智能注意力機(jī)制:體系、模型與算法剖析