- DeepSeek全場景指南
- 程希冀
- 6字
- 2025-06-03 14:47:28
模塊一 初識(shí)DeepSeek
認(rèn)識(shí)AI
在討論DeepSeek之前,我們先來聊聊AI。AI已經(jīng)成為現(xiàn)在全世界最火的詞,沒有之一。很多人已經(jīng)或多或少地使用過AI。但是,到底什么是AI?AI從哪里來?AI能做什么?在本書的開頭,請?jiān)试S我用盡可能短的篇幅,幫你梳理AI的來龍去脈,同時(shí)也讓你對(duì)琳瑯滿目的AI產(chǎn)品有更深刻的認(rèn)知。
如果我們試圖用一個(gè)簡單的比喻來解釋人工智能(Artificial Intelligence,AI),可以說,AI就像一個(gè)擁有超強(qiáng)學(xué)習(xí)能力的“學(xué)生”,它通過我們提供給它的“教材”(數(shù)據(jù)),試圖理解這個(gè)世界的規(guī)律,并幫助我們解決問題。
以前,所有的計(jì)算機(jī)軟件(也包括手機(jī)App等)都需要我們明確地告訴它每一步怎么做,且只能執(zhí)行預(yù)先定義好的功能;而 AI 則能從大量數(shù)據(jù)中學(xué)到它應(yīng)該怎么做,并應(yīng)用在它從未遇到過的新問題上(見圖1-1)。

圖1-1 傳統(tǒng)程序和人工智能的區(qū)別
現(xiàn)在的AI不僅能看懂文字,聽懂聲音,甚至能“看圖說話”,還能根據(jù)你的指令生成新的內(nèi)容。AI早已不再只是科幻電影里的概念,而是正在成為我們生活中的一部分。今天,我們就從幾個(gè)維度來了解 AI 的基本概念、關(guān)鍵詞,以及它正在如何改變我們的生活。
什么是AI
AI的本質(zhì),是讓機(jī)器具備某種“智能”。在傳統(tǒng)計(jì)算機(jī)的世界中,程序是由人類編寫的規(guī)則組成的,機(jī)器只會(huì)按照這些規(guī)則機(jī)械地工作。例如,你告訴它“如果溫度高于30攝氏度,就啟動(dòng)空調(diào)”,它就會(huì)嚴(yán)格執(zhí)行。但AI不一樣,它的“規(guī)則”不是由人類直接編寫的,而是通過數(shù)據(jù)訓(xùn)練出來的。你給它足夠多的例子,它會(huì)自己總結(jié)規(guī)律,甚至做出人類預(yù)料之外的推斷。
舉個(gè)例子,假如我們想教計(jì)算機(jī)識(shí)別一只貓。以前,你需要列出貓的所有特征,如耳朵尖、尾巴細(xì)長、毛發(fā)柔軟等。但在AI的世界里,你只需要展示大量貓的圖片,然后告訴AI“這些是貓”,它會(huì)自己學(xué)會(huì)什么樣的特征代表“貓”。這種能力讓 AI 比過去的程序更加靈活,也更加強(qiáng)大。更關(guān)鍵的是,讓AI更“通用”。人們開始?jí)粝耄灰讶澜绲闹R(shí)(數(shù)據(jù))都“喂”給 AI,AI 就會(huì)自動(dòng)學(xué)會(huì)并理解整個(gè)世界的所有規(guī)律,并幫助我們解決任何問題。
AI的“大腦”——AI大模型
要理解今天的 AI 取得如此巨大進(jìn)步背后的原因,就必須提到一個(gè)重要概念:AI大模型。你可以把AI大模型理解為存儲(chǔ)知識(shí)和規(guī)律的“容器”。與過去針對(duì)特定問題的軟件工具不同,AI大模型是一種通用的、規(guī)模巨大的模型,也就是這個(gè)“容器”非常大。在這個(gè)“容器”中存儲(chǔ)了大量“參數(shù)”。一開始,這些參數(shù)沒有什么意義。但是當(dāng)人們訓(xùn)練模型(上文所說的“學(xué)習(xí)”)時(shí),會(huì)輸入海量數(shù)據(jù)給它,這時(shí)模型的參數(shù)會(huì)被逐步調(diào)整,內(nèi)化它接觸到的數(shù)據(jù)的知識(shí)和規(guī)律。
那么,什么是AI大模型的參數(shù)?我用一個(gè)簡單的初中數(shù)學(xué)比喻來解釋。坐標(biāo)軸上的一條直線y=ax+b,只要知道了a和b的值,那么你就找到了這條直線的內(nèi)在規(guī)律,成為這條直線的“創(chuàng)造者”和“主宰者”——無論延伸到天涯海角,只要有人告訴你一個(gè)x,你就能知道對(duì)應(yīng)的y,如圖1-2所示。

圖1-2 y=ax+b的圖像
此處a和b就是兩個(gè)參數(shù)。也就是說,只要兩個(gè)神奇的數(shù)字,就可以概括關(guān)于這條直線的一切秘密。如果你知道直線上的任意兩個(gè)點(diǎn)P和Q,就可以用這兩個(gè)點(diǎn)的坐標(biāo)“訓(xùn)練”這個(gè)模型,找出a和b的值,就完成了對(duì)這個(gè)直線規(guī)律的“學(xué)習(xí)”。
而 AI 大模型的參數(shù)其實(shí)也差不多,只不過它模擬的內(nèi)容更復(fù)雜,所以需要用更多參數(shù)來模擬(AI大模型的參數(shù)量動(dòng)輒十億、百億甚至千億個(gè)),而且模擬的方式也不是一條直線,而是非線性的方式。
如果AI是一名學(xué)生,那么AI大模型就是掌握了百科全書知識(shí)的“超級(jí)學(xué)霸”。它不是只會(huì)某一門科目,而是可以在數(shù)學(xué)、文學(xué)、音樂、編程等多個(gè)領(lǐng)域游刃有余。例如,DeepSeek-R1、OpenAI GPT系列都是AI大模型。
AI大模型的訓(xùn)練需要三個(gè)關(guān)鍵要素:海量的數(shù)據(jù)、強(qiáng)大的計(jì)算能力(算力)和合適的計(jì)算方式(算法)。數(shù)據(jù)是它學(xué)習(xí)的“教材”,算力則是它大腦運(yùn)行的“能量”,而算法決定了吸收知識(shí)和產(chǎn)生智能的效率。數(shù)據(jù)、算力和算法被稱為AI的“三要素”。
多模態(tài)模型:AI的“跨界能力”
AI在近些年的最先突破是從語言文字領(lǐng)域開始的,這些模型被稱為大語言模型(Large Language Model,LLM)。ChatGPT-3.5 就是大多數(shù)人最早了解到的大語言模型,它可以和人流暢地對(duì)話并解決各類問題。但是后來專家很快發(fā)現(xiàn),同樣的算法可以很容易地應(yīng)用在非文字輸入中,如圖片、視頻、語音甚至音樂。今天,不少 AI 大模型都支持輸入不同類型的數(shù)據(jù),這些模型被稱為多模態(tài)模型。所謂“多模態(tài)”,指的是AI能夠同時(shí)處理多種類型的數(shù)據(jù),如文字、圖片、視頻、聲音等。
例如,當(dāng)你上傳一張照片并問AI“這是什么地方?”時(shí),AI需要同時(shí)結(jié)合圖片和你的文字問題才能給出答案。這種能力就是多模態(tài)模型能力的體現(xiàn)。
多模態(tài)模型的出現(xiàn),讓AI真正進(jìn)入了“懂你”的階段。它不僅能像人類一樣靈活地結(jié)合不同的信息來源,還能根據(jù)這些信息生成新的內(nèi)容。例如,你可以讓 AI 根據(jù)一段文字生成一幅畫,或者根據(jù)一組圖片生成一段描述性的文字。這種能力為AI的應(yīng)用開辟了廣闊的空間。
例如,OpenAI的GPT-4o模型、Kimi K1.5模型及通義發(fā)布的開源模型Qwen-VL系列都是多模態(tài)模型。
截至本書完稿時(shí),雖然深度求索擁有DeepSeek-VL2等多模態(tài)模型,但性能最強(qiáng)的DeepSeek-V3模型和R1模型不是多模態(tài)模型,它們只能輸入和輸出文字。但是我相信很快,深度求索或者其他 AI 公司一定會(huì)推出有多模態(tài)能力的強(qiáng)大的新開源模型。這是因?yàn)椋嗄B(tài)模型的技術(shù)和大語言模型非常相似,并沒有太多的技術(shù)瓶頸。不過現(xiàn)階段,官方應(yīng)用及很多第三方AI應(yīng)用在 DeepSeek 模型外面套了一層功能,可以自動(dòng)把用戶上傳的圖片、文件等轉(zhuǎn)換成文字再發(fā)給 DeepSeek 處理。我還會(huì)在本書的后續(xù)章節(jié)教你如何通過大語言模型間接生成各種各樣的圖表。
文生圖、文生視頻:AI的創(chuàng)作天賦
說到AI的創(chuàng)作能力,就不得不提“文生圖”和“文生視頻”。它們是AI多模態(tài)能力的一種具體應(yīng)用,正在掀起內(nèi)容創(chuàng)作領(lǐng)域的革命。
所謂“文生圖”,顧名思義,就是通過文字描述生成圖片。例如,你對(duì)AI描述“一個(gè)在夕陽下的草原上奔跑的少年”,它就能生成一幅符合描述的畫面。這種技術(shù)不僅可以用于藝術(shù)創(chuàng)作,還可以在電商、廣告設(shè)計(jì)、建筑規(guī)劃、游戲開發(fā)等領(lǐng)域大顯身手。目前,較為先進(jìn)的文生圖服務(wù)包括Midjourney (見圖1-3)、Flux和國內(nèi)的即夢等。

圖1-3 Midjourney 文生圖模型生成的“貓?jiān)陂_宇宙飛船”
“文生視頻”則更進(jìn)一步。它通過文字生成一段動(dòng)態(tài)的視頻內(nèi)容。例如,你輸入“一個(gè)機(jī)器人在未來城市中漫步”,AI就能生成一個(gè)逼真的短視頻。這種技術(shù)雖然還在發(fā)展階段,但已經(jīng)展現(xiàn)出巨大的潛力,尤其是在影視制作、虛擬現(xiàn)實(shí)和教育領(lǐng)域。
推理大模型與思維鏈
近一年來,AI大模型的一個(gè)顯著進(jìn)步是它從“會(huì)回答”進(jìn)化到了“會(huì)推理”。如果說此前的AI更像是一個(gè)充滿知識(shí)的“百科全書”,那么隨著推理能力的加入,AI逐漸變成了一位能夠進(jìn)行“深度思考”的“邏輯學(xué)家”。這種進(jìn)步,不僅讓 AI 能更好地回答復(fù)雜問題,還讓它在解決需要多步驟分析的問題時(shí)更加得心應(yīng)手。
在推理大模型出現(xiàn)之前,所有AI大模型都是非推理大模型。這些AI大模型的強(qiáng)項(xiàng)是基于“直覺”的記憶與匹配。例如,當(dāng)用戶提問“巴黎是哪個(gè)國家的首都?”時(shí),模型會(huì)迅速從其龐大的參數(shù)中直接“檢索”并回答“法國”。但在現(xiàn)實(shí)中,很多問題的答案并不能通過簡單的記憶得出,而需要邏輯推導(dǎo)和多步驟的計(jì)算。例如,假如你問AI:“如果今天是周一,那么10天后是星期幾?”這個(gè)問題的答案顯然不能直接從記憶中檢索到,而需要進(jìn)行多步計(jì)算:先加10天,再根據(jù)一周有7 天進(jìn)行取余運(yùn)算,最終得出答案為“星期四”。
非推理大模型也能解決很多復(fù)雜的理工科問題,而且速度很快。尤其是對(duì)于大模型見過的題目類型,現(xiàn)在的非推理大模型也能取得相當(dāng)不錯(cuò)的結(jié)果。
但是對(duì)于嶄新的過于復(fù)雜或反常識(shí)的問題,非推理大模型的正確率會(huì)存在瓶頸。畢竟,非推理大模型(也稱為通用大模型)對(duì)于任何問題的回答速度幾乎都是一致的。正如本書前文所述,詢問“你好嗎?”和“如何計(jì)算宇宙飛船的太陽能板所需的面積?”的回答速度是接近的,這顯然是不太科學(xué)的。為了能夠讓AI大模型學(xué)會(huì)在遇到復(fù)雜問題時(shí)拿出“草稿紙”,研究人員研發(fā)了一種更加“會(huì)推理”的 AI 大模型——推理大模型(Reasoning Large Model)。
推理大模型通過訓(xùn)練,逐漸掌握了如何將問題拆解為多個(gè)步驟,逐步分析并得出答案。它們更側(cè)重于捕捉和模擬“邏輯鏈條”,使AI在處理復(fù)雜問題時(shí)更接近人類的思維方式。
為了更好理解,我們可以借鑒心理學(xué)中的“雙系統(tǒng)理論”——系統(tǒng)1和系統(tǒng)2思維。這個(gè)理論由心理學(xué)家丹尼爾·卡尼曼提出,用于描述人類思維的兩種不同模式。系統(tǒng)1(System 1)代表快速、直覺和無意識(shí)的思維,而系統(tǒng)2(System 2)則代表慢速、邏輯和有意識(shí)的推理。AI的發(fā)展正在模擬這兩種思維方式,以實(shí)現(xiàn)更為全面和智能的表現(xiàn)。
小時(shí)候做數(shù)學(xué)題時(shí),老師總是會(huì)要求你寫出詳細(xì)的解題步驟,而不是只寫出答案。類似地,在AI推理領(lǐng)域,研究人員發(fā)現(xiàn),僅僅生成最終答案并不足夠。為了讓AI更準(zhǔn)確地回答復(fù)雜問題,研究人員引入了一個(gè)關(guān)鍵概念——思維鏈(Chain of Thought,CoT)。
思維鏈可以理解為 AI 在回答問題時(shí)的“解題步驟”,即從問題到答案的推導(dǎo)過程。通過讓 AI 生成和呈現(xiàn)這些推理步驟,它不僅能更準(zhǔn)確地解決復(fù)雜問題,還能讓人類用戶清楚地看到AI的思考脈絡(luò)(見圖1-4)。
例如,假設(shè)你問AI一個(gè)問題:
一個(gè)果籃里有10個(gè)蘋果,拿走3個(gè)后又放回2個(gè),現(xiàn)在果籃里有幾個(gè)蘋果?
非推理大模型可能直接給出一個(gè)答案,如“9 個(gè)”。但推理大模型會(huì)通過思維鏈提供完整的推導(dǎo)過程:
籃子里最開始有10個(gè)蘋果。
拿走了3個(gè)蘋果后,籃子里還剩下10-3=7個(gè)蘋果。
然后又放回了2個(gè)蘋果,籃子里最終有7+2=9個(gè)蘋果。
答案:9個(gè)蘋果。
通過這種方式,AI不僅給出了答案,還展示了它的思考過程,這讓它的回答更透明可信,也便于人類用戶檢查和驗(yàn)證。

圖1-4 通過思維鏈解決問題示意圖
這種看似簡單的改進(jìn)帶來了兩個(gè)顯著的優(yōu)勢:
提高準(zhǔn)確性:思維鏈讓AI在回答復(fù)雜問題時(shí)少犯“跳步”錯(cuò)誤,也就是直接跳到錯(cuò)誤答案的情況,讓每個(gè)結(jié)論都有依據(jù)。DeepSeek-R1還發(fā)展出了頓悟時(shí)刻(Aha Moment),即可以在解決問題的過程中隨時(shí)發(fā)現(xiàn)問題并改用其他的方式繼續(xù)解決。
增強(qiáng)可解釋性:用戶可以輕松理解 AI 是如何得出某個(gè)結(jié)論的,從而對(duì)AI的回答更有信心。
如今,思維鏈已經(jīng)成為推動(dòng) AI 推理能力進(jìn)步的重要技術(shù)之一。通過引入思維鏈訓(xùn)練,大模型在處理數(shù)學(xué)、邏輯推理甚至哲學(xué)問題時(shí)展現(xiàn)出了更高的準(zhǔn)確性和靈活性。
盡管思維鏈給AI帶來了顯著的推理能力,但它也存在一些局限性。當(dāng)前的大模型在面對(duì)極度復(fù)雜或跨領(lǐng)域的推理問題時(shí),仍然會(huì)犯錯(cuò)誤。未來,隨著AI大模型的不斷改進(jìn),“推理大模型+思維鏈”的能力有望進(jìn)一步提升。
2025年2月底,隨著Claude 3.7 Sonnet模型的發(fā)布,一種新的AI系統(tǒng)形式——混合推理模型(或稱為自動(dòng)路由模型)正式問世。據(jù)稱,GPT-5 系列也將采用這種模式。在這種模式下,同一個(gè)模型將同時(shí)支持思維鏈輸出(推理模式)和普通輸出(非推理模式)。系統(tǒng)會(huì)根據(jù)用戶的需求,自動(dòng)判斷是否采用思維鏈輸出,以減少用戶手工選擇的復(fù)雜性。
AI智能體
如果說AI大模型是人工智能的“大腦”,那么AI智能體(AI Agent)就是人工智能的“軀干”。
AI大模型本身不能執(zhí)行任何具體操作,也無法調(diào)用外部工具,只能輸出文字、圖片等信息,具體執(zhí)行操作還是得人來。但是,AI 智能體可以把 AI和外部數(shù)據(jù)及一些具體操作的調(diào)用結(jié)合起來。例如,你讓 DeepSeek 分析明天適不適合到北京旅游,沒有智能體的時(shí)候是很困難的,因?yàn)?DeepSeek 完全不清楚明天北京的天氣怎么樣。但是如果有了智能體,DeepSeek 就可以利用智能體平臺(tái)調(diào)用外部的天氣預(yù)報(bào)工具,查詢北京的天氣。
如果再進(jìn)一步,能做的就不僅僅是查詢天氣了。理論上,我們可以利用AI智能體,直接讓AI幫我們點(diǎn)外賣、操作PPT,甚至開發(fā)一個(gè)游戲。OpenAI、Anthropic等公司都已經(jīng)推出了能使用AI操作計(jì)算機(jī)的功能。2025年3月,旨在實(shí)現(xiàn)通用AI智能體的Manus產(chǎn)品推出,Manus能夠根據(jù)人的指令自主規(guī)劃 AI 的任務(wù),自行在云端調(diào)用各種軟件并直接給出成品,如執(zhí)行數(shù)據(jù)分析、名片制作、游戲開發(fā)等,一夜之間吸引了不少眼球。但是我們要記住的是,歸根結(jié)底,AI智能體只能幫你做工作流的規(guī)劃,但工作流的每一步還是要底下的AI大模型去做,所以AI智能體是AI人機(jī)協(xié)作的“加速器”,它并不能提升 AI 的智能,更多是方便了用戶的使用。當(dāng)然,AI大模型的能力不斷提升,AI智能體的能力也會(huì)越來越強(qiáng)。圖1-5展示了AI智能體簡化版工作流程圖。實(shí)際的工作要更加復(fù)雜,包括長期記憶、多次反復(fù)調(diào)用,甚至多個(gè)AI大模型的聯(lián)合工作等。

圖1-5 AI 智能體簡化版工作流程圖
- 你好中小學(xué)人工智能
- 人工智能時(shí)代的超思考法
- 基于機(jī)器學(xué)習(xí)的行為識(shí)別技術(shù)研究
- 人工智能安全
- 人工智能創(chuàng)新啟示錄:賦能產(chǎn)業(yè)
- 統(tǒng)計(jì)學(xué)習(xí)必學(xué)的十個(gè)問題:理論與實(shí)踐
- DeepSeek實(shí)戰(zhàn):操作攻略與商業(yè)應(yīng)用
- 移動(dòng)機(jī)器人技術(shù)及其應(yīng)用
- PVCBOT零基礎(chǔ)機(jī)器人制作
- PyTorch神經(jīng)網(wǎng)絡(luò)實(shí)戰(zhàn):移動(dòng)端圖像處理
- MindSpore科學(xué)計(jì)算
- 人工智能算法
- DeepSeek:打開財(cái)富密碼
- 智慧的疆界:從圖靈機(jī)到人工智能
- 自動(dòng)調(diào)節(jié)系統(tǒng)解析與PID整定