- DeepSeek全場(chǎng)景指南
- 程希冀
- 1445字
- 2025-06-03 14:47:30
DeepSeek的局限性
任何技術(shù)突破都伴隨著階段性局限,DeepSeek在邁向通用人工智能的道路上仍面臨很多挑戰(zhàn),這些限制既源于當(dāng)前 AI 技術(shù)的共性瓶頸,也與其特定的技術(shù)路線選擇密切相關(guān)。
模型幻覺(jué)(Hallucination):這是困擾所有大模型的阿喀琉斯之踵,DeepSeek也未能完全突破這一技術(shù)屏障。大模型可能基于概率生成看似合理實(shí)則錯(cuò)誤的回答,被很多人戲稱為“一本正經(jīng)地胡說(shuō)八道”。下面舉個(gè)例子。以下對(duì)話使用DeepSeek-R1模型進(jìn)行。
輸入:
寫一段話,論述DeepSeek-R1為何比OpenAI的 o1模型強(qiáng)大。要求有理、有據(jù)、有數(shù)據(jù)。
輸出:
DeepSeek-R1相比ChatGPT o1模型的技術(shù)優(yōu)勢(shì)可通過(guò)以下數(shù)據(jù)佐證。
DeepSeek-R1激活參數(shù)量達(dá)2.4萬(wàn)億(稀疏激活模式),相較ChatGPT o1的1.8萬(wàn)億密集參數(shù),在語(yǔ)言理解任務(wù)(MMLU基準(zhǔn))取得87.3%準(zhǔn)確率,高于后者的83.1%。在多輪對(duì)話場(chǎng)景(Multi-Session Dialogue Benchmark)中保持93%的上下文連貫性,較ChatGPT o1提升11%。基于參數(shù)稀疏化技術(shù),DeepSeek-R1單次推理能耗降低42%,在阿里云平臺(tái)實(shí)測(cè)每百萬(wàn)次調(diào)用成本為18.7,較o1的29.5更具商業(yè)可行性。這種能效優(yōu)勢(shì)源于動(dòng)態(tài)計(jì)算資源分配算法,使高負(fù)載場(chǎng)景硬件利用率達(dá)92%。
這段話看起來(lái)有理有據(jù),但其實(shí)就是“一本正經(jīng)地胡說(shuō)八道”。OpenAI的o1模型并沒(méi)有公布技術(shù)細(xì)節(jié)和參數(shù)數(shù)量,輸出中的“1.8萬(wàn)億密集參數(shù)”實(shí)際應(yīng)該是坊間傳聞中GPT-4的參數(shù)數(shù)量。另外o1模型在MMLU基準(zhǔn)測(cè)試中的準(zhǔn)確率是92.3%而不是83.1%。這段話中的類似錯(cuò)誤還有很多,因此如果你直接將這段話用于嚴(yán)謹(jǐn)?shù)膶懽鳎蜁?huì)出現(xiàn)嚴(yán)重的問(wèn)題。
究其根源,這既與訓(xùn)練數(shù)據(jù)的覆蓋度相關(guān)——即便采用萬(wàn)億Token級(jí)的語(yǔ)料庫(kù),也難以窮盡所有細(xì)分領(lǐng)域的專業(yè)細(xì)節(jié);也與模型自身的推理機(jī)制有關(guān),當(dāng)前基于注意力機(jī)制的生成方式本質(zhì)上仍是基于統(tǒng)計(jì)和概率。也就是說(shuō),模型輸出的內(nèi)容不是依靠“是否正確”決定的,而是依賴“概率高低”的“完形填空”。如果一段內(nèi)容雖然錯(cuò)誤,但和模型訓(xùn)練時(shí)接收的大量數(shù)據(jù)有類似的特征,它就覺(jué)得這段話出現(xiàn)的概率高,于是作為答案輸出。尤其需要注意的是,根據(jù)我自己的實(shí)測(cè),DeepSeek-R1 模型在幻覺(jué)方面的表現(xiàn)并沒(méi)有達(dá)到最優(yōu),它產(chǎn)生幻覺(jué)的概率較高,明顯高于DeepSeek-V3、GPT-4.5、Claude 3.7等同時(shí)期的其他模型。因此,使用DeepSeek-R1模型時(shí),要特別注意幻覺(jué)問(wèn)題的影響。采用提示詞約束、RAG 知識(shí)庫(kù)引導(dǎo)、聯(lián)網(wǎng)搜索等方式可以在一定程度上規(guī)避幻覺(jué)的影響。在本書(shū)的后續(xù)章節(jié)中也會(huì)介紹相關(guān)內(nèi)容。
缺乏多模態(tài)推理:DeepSeek-R1 和 V3 模型目前仍聚焦于純文本模態(tài)的處理,這在一定程度上限制了其應(yīng)用場(chǎng)景的擴(kuò)展。相較于OpenAI o1、Kimi K1.5等其他模型,DeepSeek-R1和V3模型尚不具備直接解析圖像、音頻或視頻等非結(jié)構(gòu)化數(shù)據(jù)的能力。雖然DeepSeek也有VL系列視覺(jué)模型,但它不是推理大模型。例如,在智慧教育場(chǎng)景中,學(xué)生同時(shí)提交數(shù)學(xué)證明的手寫草稿和文字描述時(shí),模型無(wú)法直接理解公式圖像與文本解釋的對(duì)應(yīng)關(guān)系,必須通過(guò)OCR[1]轉(zhuǎn)換形成信息鏈,這種斷層處理顯著降低了解決問(wèn)題的效率。
高延遲:在工程落地層面,DeepSeek-R1暴露的推理延遲問(wèn)題值得關(guān)注。涉及復(fù)雜邏輯鏈時(shí),思考時(shí)間經(jīng)常達(dá)到數(shù)分鐘級(jí)。這種延遲在實(shí)時(shí)交互場(chǎng)景(如在線客服、同聲傳譯)中將直接影響用戶體驗(yàn)。
知識(shí)更新的滯后:這也是所有大模型面臨的共同難題。在本書(shū)完稿時(shí),DeepSeek-V3和DeepSeek-R1模型的知識(shí)截止時(shí)間為2024年7月。所有在此之后的新聞、新技術(shù)和新概念,DeepSeek均不知道。由于模型訓(xùn)練的巨大成本,其知識(shí)庫(kù)更新周期難以縮短至季度以內(nèi),在日新月異的科技、金融等領(lǐng)域,這種滯后性可能直接影響決策支持的有效性。
你可以直接問(wèn)一個(gè)大模型“你的知識(shí)截止時(shí)間是什么時(shí)候?”來(lái)獲得它當(dāng)前的知識(shí)截止時(shí)間。
文風(fēng)限制:DeepSeek-R1模型由于其獨(dú)特的訓(xùn)練方式及其推理能力的影響,在輸出文風(fēng)中有較強(qiáng)的“個(gè)性”,影響了其在部分領(lǐng)域的使用效果。本書(shū)后續(xù)部分會(huì)詳細(xì)介紹。DeepSeek-V3 模型在文風(fēng)上更加自由和可控。
- 巧用ChatGPT快速搞定數(shù)據(jù)分析
- 虛擬偶像AI實(shí)現(xiàn)
- 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí):基于MATLAB的仿真與實(shí)現(xiàn)
- 智能制造時(shí)代的研發(fā)智慧:知識(shí)工程2.0
- 從深度學(xué)習(xí)到圖神經(jīng)網(wǎng)絡(luò):模型與實(shí)踐
- 不會(huì)被機(jī)器替代的人:智能時(shí)代的生存策略
- 人工智能的進(jìn)化
- 自己動(dòng)手制作無(wú)人機(jī)
- 巧用ChatGPT快速提高職場(chǎng)晉升力
- 如何創(chuàng)造可信的AI
- EV3機(jī)器人之快樂(lè)搭建
- 智能簡(jiǎn)史:從大爆炸到元宇宙
- 機(jī)器學(xué)習(xí)基礎(chǔ):從入門到求職
- Linux人工智能開(kāi)發(fā)實(shí)例
- AIGC高效寫作:如何發(fā)揮ChatGPT的無(wú)限創(chuàng)作力