官术网_书友最值得收藏!

  • DeepSeek全場景指南
  • 程希冀
  • 4894字
  • 2025-06-03 14:47:28

模塊一 初識DeepSeek

認識AI

在討論DeepSeek之前,我們先來聊聊AI。AI已經成為現在全世界最火的詞,沒有之一。很多人已經或多或少地使用過AI。但是,到底什么是AI?AI從哪里來?AI能做什么?在本書的開頭,請允許我用盡可能短的篇幅,幫你梳理AI的來龍去脈,同時也讓你對琳瑯滿目的AI產品有更深刻的認知。

如果我們試圖用一個簡單的比喻來解釋人工智能(Artificial Intelligence,AI),可以說,AI就像一個擁有超強學習能力的“學生”,它通過我們提供給它的“教材”(數據),試圖理解這個世界的規律,并幫助我們解決問題。

以前,所有的計算機軟件(也包括手機App等)都需要我們明確地告訴它每一步怎么做,且只能執行預先定義好的功能;而 AI 則能從大量數據中學到它應該怎么做,并應用在它從未遇到過的新問題上(見圖1-1)。

圖1-1 傳統程序和人工智能的區別

現在的AI不僅能看懂文字,聽懂聲音,甚至能“看圖說話”,還能根據你的指令生成新的內容。AI早已不再只是科幻電影里的概念,而是正在成為我們生活中的一部分。今天,我們就從幾個維度來了解 AI 的基本概念、關鍵詞,以及它正在如何改變我們的生活。

什么是AI

AI的本質,是讓機器具備某種“智能”。在傳統計算機的世界中,程序是由人類編寫的規則組成的,機器只會按照這些規則機械地工作。例如,你告訴它“如果溫度高于30攝氏度,就啟動空調”,它就會嚴格執行。但AI不一樣,它的“規則”不是由人類直接編寫的,而是通過數據訓練出來的。你給它足夠多的例子,它會自己總結規律,甚至做出人類預料之外的推斷。

舉個例子,假如我們想教計算機識別一只貓。以前,你需要列出貓的所有特征,如耳朵尖、尾巴細長、毛發柔軟等。但在AI的世界里,你只需要展示大量貓的圖片,然后告訴AI“這些是貓”,它會自己學會什么樣的特征代表“貓”。這種能力讓 AI 比過去的程序更加靈活,也更加強大。更關鍵的是,讓AI更“通用”。人們開始夢想,只要把全世界的知識(數據)都“喂”給 AI,AI 就會自動學會并理解整個世界的所有規律,并幫助我們解決任何問題。

AI的“大腦”——AI大模型

要理解今天的 AI 取得如此巨大進步背后的原因,就必須提到一個重要概念:AI大模型。你可以把AI大模型理解為存儲知識和規律的“容器”。與過去針對特定問題的軟件工具不同,AI大模型是一種通用的、規模巨大的模型,也就是這個“容器”非常大。在這個“容器”中存儲了大量“參數”。一開始,這些參數沒有什么意義。但是當人們訓練模型(上文所說的“學習”)時,會輸入海量數據給它,這時模型的參數會被逐步調整,內化它接觸到的數據的知識和規律。

那么,什么是AI大模型的參數?我用一個簡單的初中數學比喻來解釋。坐標軸上的一條直線y=ax+b,只要知道了ab的值,那么你就找到了這條直線的內在規律,成為這條直線的“創造者”和“主宰者”——無論延伸到天涯海角,只要有人告訴你一個x,你就能知道對應的y,如圖1-2所示。

圖1-2 y=ax+b的圖像

此處ab就是兩個參數。也就是說,只要兩個神奇的數字,就可以概括關于這條直線的一切秘密。如果你知道直線上的任意兩個點PQ,就可以用這兩個點的坐標“訓練”這個模型,找出ab的值,就完成了對這個直線規律的“學習”。

而 AI 大模型的參數其實也差不多,只不過它模擬的內容更復雜,所以需要用更多參數來模擬(AI大模型的參數量動輒十億、百億甚至千億個),而且模擬的方式也不是一條直線,而是非線性的方式。

如果AI是一名學生,那么AI大模型就是掌握了百科全書知識的“超級學霸”。它不是只會某一門科目,而是可以在數學、文學、音樂、編程等多個領域游刃有余。例如,DeepSeek-R1、OpenAI GPT系列都是AI大模型。

AI大模型的訓練需要三個關鍵要素:海量的數據、強大的計算能力(算力)和合適的計算方式(算法)。數據是它學習的“教材”,算力則是它大腦運行的“能量”,而算法決定了吸收知識和產生智能的效率。數據算力算法被稱為AI的“三要素”。

多模態模型:AI的“跨界能力”

AI在近些年的最先突破是從語言文字領域開始的,這些模型被稱為大語言模型(Large Language Model,LLM)。ChatGPT-3.5 就是大多數人最早了解到的大語言模型,它可以和人流暢地對話并解決各類問題。但是后來專家很快發現,同樣的算法可以很容易地應用在非文字輸入中,如圖片、視頻、語音甚至音樂。今天,不少 AI 大模型都支持輸入不同類型的數據,這些模型被稱為多模態模型。所謂“多模態”,指的是AI能夠同時處理多種類型的數據,如文字、圖片、視頻、聲音等。

例如,當你上傳一張照片并問AI“這是什么地方?”時,AI需要同時結合圖片和你的文字問題才能給出答案。這種能力就是多模態模型能力的體現。

多模態模型的出現,讓AI真正進入了“懂你”的階段。它不僅能像人類一樣靈活地結合不同的信息來源,還能根據這些信息生成新的內容。例如,你可以讓 AI 根據一段文字生成一幅畫,或者根據一組圖片生成一段描述性的文字。這種能力為AI的應用開辟了廣闊的空間。

例如,OpenAI的GPT-4o模型、Kimi K1.5模型及通義發布的開源模型Qwen-VL系列都是多模態模型。

截至本書完稿時,雖然深度求索擁有DeepSeek-VL2等多模態模型,但性能最強的DeepSeek-V3模型和R1模型不是多模態模型,它們只能輸入和輸出文字。但是我相信很快,深度求索或者其他 AI 公司一定會推出有多模態能力的強大的新開源模型。這是因為,多模態模型的技術和大語言模型非常相似,并沒有太多的技術瓶頸。不過現階段,官方應用及很多第三方AI應用在 DeepSeek 模型外面套了一層功能,可以自動把用戶上傳的圖片、文件等轉換成文字再發給 DeepSeek 處理。我還會在本書的后續章節教你如何通過大語言模型間接生成各種各樣的圖表。

文生圖、文生視頻:AI的創作天賦

說到AI的創作能力,就不得不提“文生圖”和“文生視頻”。它們是AI多模態能力的一種具體應用,正在掀起內容創作領域的革命。

所謂“文生圖”,顧名思義,就是通過文字描述生成圖片。例如,你對AI描述“一個在夕陽下的草原上奔跑的少年”,它就能生成一幅符合描述的畫面。這種技術不僅可以用于藝術創作,還可以在電商、廣告設計、建筑規劃、游戲開發等領域大顯身手。目前,較為先進的文生圖服務包括Midjourney (見圖1-3)、Flux和國內的即夢等。

圖1-3 Midjourney 文生圖模型生成的“貓在開宇宙飛船”

“文生視頻”則更進一步。它通過文字生成一段動態的視頻內容。例如,你輸入“一個機器人在未來城市中漫步”,AI就能生成一個逼真的短視頻。這種技術雖然還在發展階段,但已經展現出巨大的潛力,尤其是在影視制作、虛擬現實和教育領域。

推理大模型與思維鏈

近一年來,AI大模型的一個顯著進步是它從“會回答”進化到了“會推理”。如果說此前的AI更像是一個充滿知識的“百科全書”,那么隨著推理能力的加入,AI逐漸變成了一位能夠進行“深度思考”的“邏輯學家”。這種進步,不僅讓 AI 能更好地回答復雜問題,還讓它在解決需要多步驟分析的問題時更加得心應手。

在推理大模型出現之前,所有AI大模型都是非推理大模型。這些AI大模型的強項是基于“直覺”的記憶與匹配。例如,當用戶提問“巴黎是哪個國家的首都?”時,模型會迅速從其龐大的參數中直接“檢索”并回答“法國”。但在現實中,很多問題的答案并不能通過簡單的記憶得出,而需要邏輯推導和多步驟的計算。例如,假如你問AI:“如果今天是周一,那么10天后是星期幾?”這個問題的答案顯然不能直接從記憶中檢索到,而需要進行多步計算:先加10天,再根據一周有7 天進行取余運算,最終得出答案為“星期四”。

非推理大模型也能解決很多復雜的理工科問題,而且速度很快。尤其是對于大模型見過的題目類型,現在的非推理大模型也能取得相當不錯的結果。

但是對于嶄新的過于復雜或反常識的問題,非推理大模型的正確率會存在瓶頸。畢竟,非推理大模型(也稱為通用大模型)對于任何問題的回答速度幾乎都是一致的。正如本書前文所述,詢問“你好嗎?”和“如何計算宇宙飛船的太陽能板所需的面積?”的回答速度是接近的,這顯然是不太科學的。為了能夠讓AI大模型學會在遇到復雜問題時拿出“草稿紙”,研究人員研發了一種更加“會推理”的 AI 大模型——推理大模型(Reasoning Large Model

推理大模型通過訓練,逐漸掌握了如何將問題拆解為多個步驟,逐步分析并得出答案。它們更側重于捕捉和模擬“邏輯鏈條”,使AI在處理復雜問題時更接近人類的思維方式。

為了更好理解,我們可以借鑒心理學中的“雙系統理論”——系統1和系統2思維。這個理論由心理學家丹尼爾·卡尼曼提出,用于描述人類思維的兩種不同模式。系統1(System 1代表快速、直覺和無意識的思維,而系統2(System 2則代表慢速、邏輯和有意識的推理。AI的發展正在模擬這兩種思維方式,以實現更為全面和智能的表現。

小時候做數學題時,老師總是會要求你寫出詳細的解題步驟,而不是只寫出答案。類似地,在AI推理領域,研究人員發現,僅僅生成最終答案并不足夠。為了讓AI更準確地回答復雜問題,研究人員引入了一個關鍵概念——思維鏈(Chain of Thought,CoT

思維鏈可以理解為 AI 在回答問題時的“解題步驟”,即從問題到答案的推導過程。通過讓 AI 生成和呈現這些推理步驟,它不僅能更準確地解決復雜問題,還能讓人類用戶清楚地看到AI的思考脈絡(見圖1-4)。

例如,假設你問AI一個問題:

一個果籃里有10個蘋果,拿走3個后又放回2個,現在果籃里有幾個蘋果?

非推理大模型可能直接給出一個答案,如“9 個”。但推理大模型會通過思維鏈提供完整的推導過程:

籃子里最開始有10個蘋果。

拿走了3個蘋果后,籃子里還剩下10-3=7個蘋果。

然后又放回了2個蘋果,籃子里最終有7+2=9個蘋果。

答案:9個蘋果。

通過這種方式,AI不僅給出了答案,還展示了它的思考過程,這讓它的回答更透明可信,也便于人類用戶檢查和驗證。

圖1-4 通過思維鏈解決問題示意圖

這種看似簡單的改進帶來了兩個顯著的優勢:

提高準確性:思維鏈讓AI在回答復雜問題時少犯“跳步”錯誤,也就是直接跳到錯誤答案的情況,讓每個結論都有依據。DeepSeek-R1還發展出了頓悟時刻(Aha Moment),即可以在解決問題的過程中隨時發現問題并改用其他的方式繼續解決。

增強可解釋性:用戶可以輕松理解 AI 是如何得出某個結論的,從而對AI的回答更有信心。

如今,思維鏈已經成為推動 AI 推理能力進步的重要技術之一。通過引入思維鏈訓練,大模型在處理數學、邏輯推理甚至哲學問題時展現出了更高的準確性和靈活性。

盡管思維鏈給AI帶來了顯著的推理能力,但它也存在一些局限性。當前的大模型在面對極度復雜或跨領域的推理問題時,仍然會犯錯誤。未來,隨著AI大模型的不斷改進,“推理大模型+思維鏈”的能力有望進一步提升。

2025年2月底,隨著Claude 3.7 Sonnet模型的發布,一種新的AI系統形式——混合推理模型(或稱為自動路由模型)正式問世。據稱,GPT-5 系列也將采用這種模式。在這種模式下,同一個模型將同時支持思維鏈輸出(推理模式)和普通輸出(非推理模式)。系統會根據用戶的需求,自動判斷是否采用思維鏈輸出,以減少用戶手工選擇的復雜性。

AI智能體

如果說AI大模型是人工智能的“大腦”,那么AI智能體(AI Agent)就是人工智能的“軀干”。

AI大模型本身不能執行任何具體操作,也無法調用外部工具,只能輸出文字、圖片等信息,具體執行操作還是得人來。但是,AI 智能體可以把 AI和外部數據及一些具體操作的調用結合起來。例如,你讓 DeepSeek 分析明天適不適合到北京旅游,沒有智能體的時候是很困難的,因為 DeepSeek 完全不清楚明天北京的天氣怎么樣。但是如果有了智能體,DeepSeek 就可以利用智能體平臺調用外部的天氣預報工具,查詢北京的天氣。

如果再進一步,能做的就不僅僅是查詢天氣了。理論上,我們可以利用AI智能體,直接讓AI幫我們點外賣、操作PPT,甚至開發一個游戲。OpenAI、Anthropic等公司都已經推出了能使用AI操作計算機的功能。2025年3月,旨在實現通用AI智能體的Manus產品推出,Manus能夠根據人的指令自主規劃 AI 的任務,自行在云端調用各種軟件并直接給出成品,如執行數據分析、名片制作、游戲開發等,一夜之間吸引了不少眼球。但是我們要記住的是,歸根結底,AI智能體只能幫你做工作流的規劃,但工作流的每一步還是要底下的AI大模型去做,所以AI智能體是AI人機協作的“加速器”,它并不能提升 AI 的智能,更多是方便了用戶的使用。當然,AI大模型的能力不斷提升,AI智能體的能力也會越來越強。圖1-5展示了AI智能體簡化版工作流程圖。實際的工作要更加復雜,包括長期記憶、多次反復調用,甚至多個AI大模型的聯合工作等。

圖1-5 AI 智能體簡化版工作流程圖

主站蜘蛛池模板: 微博| 乃东县| 丽水市| 廊坊市| 佛学| 金乡县| 鹤峰县| 奉化市| 岫岩| 醴陵市| 乌兰察布市| 长葛市| 灵武市| 辰溪县| 和政县| 永春县| 金川县| 东乡| 永安市| 确山县| 高安市| 玉山县| 徐汇区| 当涂县| 固镇县| 中牟县| 三门县| 出国| 新泰市| 武夷山市| 类乌齐县| 成安县| 苗栗市| 老河口市| 金塔县| 洪雅县| 靖州| 连南| 威远县| 禹州市| 无极县|