第1章語(yǔ)言模型簡(jiǎn)介

語(yǔ)言模型（Language Model）是使用統(tǒng)計(jì)方法或者神經(jīng)網(wǎng)絡(luò)來(lái)計(jì)算單詞或單詞序列出現(xiàn)的概率的模型。通過(guò)語(yǔ)言模型，我們可以計(jì)算某個(gè)單詞或單詞序列在自然語(yǔ)言中出現(xiàn)的概率。例如，單詞序列w₁，w₂，…，w_m的概率可以通過(guò)如下公式計(jì)算：

通過(guò)語(yǔ)言模型，我們還可以方便地估算在某個(gè)自然語(yǔ)言的上下文中下一個(gè)詞出現(xiàn)的概率。例如，我們把w₁，w₂，…，w_i_-1看作上下文，則某個(gè)單詞w出現(xiàn)在第i個(gè)位置上的概率為

由上面的公式可以看到，如果想使用語(yǔ)言模型，首先需要獲得每個(gè)單詞在多種上下文中的條件概率，而獲得這些條件概率的過(guò)程稱(chēng)為訓(xùn)練語(yǔ)言模型。訓(xùn)練語(yǔ)言模型的邏輯比較簡(jiǎn)單，首先需要準(zhǔn)備一些文本語(yǔ)料并在這些文本中的某些位置選取一些單詞，然后讓語(yǔ)言模型根據(jù)上下文去預(yù)測(cè)這些位置上的單詞，并根據(jù)預(yù)測(cè)結(jié)果正確與否更新語(yǔ)言模型的參數(shù)，用大量的文本數(shù)據(jù)不斷重復(fù)這個(gè)過(guò)程之后，我們最終會(huì)得到語(yǔ)言模型中各個(gè)單詞在不同上下文中的條件概率。

雖然不同語(yǔ)言模型的訓(xùn)練目標(biāo)基本一致，但是它們的技術(shù)特點(diǎn)和實(shí)際用途卻有很大的區(qū)別，我們將其歸類(lèi)為傳統(tǒng)語(yǔ)言模型和大語(yǔ)言模型（Large Language Model，LLM）。本章將介紹這兩類(lèi)模型的發(fā)展歷程和技術(shù)特點(diǎn)，并對(duì)它們的應(yīng)用方式進(jìn)行比較和討論。

官术网_书友最值得收藏!

大語(yǔ)言模型：原理、應(yīng)用與優(yōu)化

第1章 語(yǔ)言模型簡(jiǎn)介

第1章語(yǔ)言模型簡(jiǎn)介