牛牛抢庄的游戏

書名： DeepSeek實(shí)戰(zhàn)：從提示詞到部署和實(shí)踐
作者名：張成文編著
本章字?jǐn)?shù)： 994字
更新時間： 2025-06-03 14:17:25

1.1　大模型的定義

大模型，是指具有大量參數(shù)（參數(shù)規(guī)模十億及以上，如DeepSeek-R1模型的參數(shù)規(guī)模是6710億）和復(fù)雜結(jié)構(gòu)的經(jīng)過海量數(shù)據(jù)預(yù)訓(xùn)練的人工智能模型。這類模型具備強(qiáng)大的多任務(wù)處理能力，如情感分析、文本摘要等，部分多模態(tài)大模型更是同時具有文本、圖像和音頻處理能力。

為了更好地理解大模型，我們首先需要了解什么是“模型”。在人工智能領(lǐng)域，“模型”是一個核心概念。簡單來說，模型（Model）是對數(shù)據(jù)進(jìn)行學(xué)習(xí)和訓(xùn)練后能夠處理一定的下游任務(wù)的工具，能夠根據(jù)輸入的數(shù)據(jù)進(jìn)行預(yù)測、分類、識別等任務(wù)。例如：

① 在圖像識別任務(wù)中，模型可以分析用戶輸入的一張圖片，判斷照片中的事物是貓、狗，還是汽車、房子。

②在自然語言處理任務(wù)中，模型可以理解一段文字，并根據(jù)用戶的指令回答問題、翻譯語言或生成摘要；而大模型是模型家族中的“頂尖選手”。

大模型的“大”主要體現(xiàn)在如下2方面：

① 訓(xùn)練數(shù)據(jù)規(guī)模龐大。大模型的訓(xùn)練數(shù)據(jù)量非常驚人，以DeepSeek-R1模型為例，在第二個監(jiān)督微調(diào)（Supervised Fine-Tuning，SFT）訓(xùn)練過程中使用了60萬條與推理相關(guān)的樣本和20萬條與推理無關(guān)的寫作、事實(shí)問答、自我認(rèn)知和翻譯數(shù)據(jù)。通過對這些數(shù)據(jù)的深入學(xué)習(xí)，模型能夠挖掘出數(shù)據(jù)中的規(guī)律，從而不斷提升自己的能力。

②參數(shù)量巨大。大模型通常擁有數(shù)十億甚至上萬億參數(shù)，一般，模型的參數(shù)越多，模型學(xué)到的知識就越豐富，處理復(fù)雜任務(wù)的能力也就越強(qiáng)。2020年，OpenAI的研究團(tuán)隊(duì)就已經(jīng)發(fā)現(xiàn)大語言模型遵循著尺度定律（Scaling Law），簡單來說，模型的最終性能主要與算力、模型參數(shù)量和數(shù)據(jù)量三者相關(guān)[1]。

而在訓(xùn)練數(shù)據(jù)方面，為了增強(qiáng)大模型的泛化能力，訓(xùn)練數(shù)據(jù)不僅在數(shù)量上極為龐大，更需要涵蓋足夠廣泛的任務(wù)領(lǐng)域。以DeepSeek于2023年11月發(fā)布的DeepSeek LLM 67B Base模型為例，其訓(xùn)練數(shù)據(jù)量達(dá)到了2萬億Token的龐大數(shù)據(jù)集，而數(shù)據(jù)種類包含數(shù)字、代碼、書籍等，龐大且多樣的數(shù)據(jù)集造就了大模型強(qiáng)大的通用能力，能夠有效處理各種任務(wù)。

Token是大模型處理的最小單位或基本元素，是模型理解和生成的基礎(chǔ)。Token可以是一個單詞、一個漢字、一個標(biāo)點(diǎn)符號、一個子詞片段，甚至是一個空格，具體取決于所使用的分詞策略，也可以是圖像中的一塊兒。

在自然語言處理領(lǐng)域，早期的語言模型可能只有幾百萬個參數(shù)，雖然能處理一些簡單的任務(wù)，但在理解復(fù)雜語義或生成長文本時往往力不從心。而如今的大語言模型，如DeepSeek-R1、GPT-4等，參數(shù)規(guī)模已經(jīng)達(dá)到數(shù)千億甚至上萬億。這些模型不僅能理解語言的語法和語義，還能捕捉上下文和情感傾向，從而給出更準(zhǔn)確、更自然的回答。

官术网_书友最值得收藏!

DeepSeek實(shí)戰(zhàn)：從提示詞到部署和實(shí)踐

1.1 大模型的定義

1.1　大模型的定義