- 大語言模型:原理、應(yīng)用與優(yōu)化
- 蘇之陽 王錦鵬 姜迪 宋元峰
- 1106字
- 2024-12-18 17:06:21
1.1.1 n-gram語言模型
n-gram指的是由n個連續(xù)單詞構(gòu)成的序列,例如,large是一個一元語法(Unigram)的實例,large language是一個二元語法(Bigram)的實例,而large language model是一個三元語法(Trigram)的實例?;趎-gram構(gòu)造的語言模型稱為n-gram語言模型,這種語言模型將單詞序列的生成過程看作馬爾可夫過程,其數(shù)學(xué)基礎(chǔ)是馬爾可夫假設(shè)(Markov Assumption),即第n個詞僅僅依賴于它前面的n-1個詞。使用n-gram語言模型計算單詞序列的概率時,不同的n會有不同的計算方法。例如,當(dāng)n-1時,我們采用的是一元語法語言模型:

則單詞序列“l(fā)arge language model”的概率的計算公式為:

其中,<s>和</s>是標(biāo)識句子開頭和結(jié)束的特殊符號。當(dāng)n=2時,用二元語法語言模型計算單詞序列的概率的計算公式為:

則單詞序列“l(fā)arge language model”的概率的計算公式為:

以此類推,當(dāng)n=3時,用三元語法語言模型計算單詞序列的概率的計算公式為:

則單詞序列“l(fā)arge language model”的概率的計算公式為:

可以看出,使用n-gram語言模型的前提是對條件概率進(jìn)行精確的估計。常用的一個方法是收集大量的自然文本語料,然后采用最大似然估計(Maximum Likelihood Estimation,MLE)的方式計算這些條件概率。MLE的目標(biāo)是通過優(yōu)化
使得訓(xùn)練語料的概率最大化。
以在單詞序列w1,w2,…,wm上訓(xùn)練一元語法語言模型為例,考慮到某些單詞會重復(fù)出現(xiàn)(比如w1和wm都是單詞“l(fā)arge”),我們將

表示為:

其中,vi表示詞匯表中某個單詞,c(vi)表示在單詞序列w1,w2,…,wm中vi出現(xiàn)的頻次。一元語法語言模型訓(xùn)練的目標(biāo)是使P(w1,w2,…,wm)最大化,因此可以抽象成如下數(shù)學(xué)問題:

通過求解上述問題,我們發(fā)現(xiàn)可以通過統(tǒng)計單詞出現(xiàn)的頻次來實現(xiàn)對語言模型中的參數(shù)的估計,一元語法語言模型中的各個概率可以通過如下公式進(jìn)行計算:

其中,c(wi)表示單詞wi在訓(xùn)練數(shù)據(jù)中的頻次。
以此類推,二元語法語言模型中的各個條件概率值可以通過如下公式進(jìn)行計算:

同理,三元語法語言模型中的各個條件概率值可以通過如下公式進(jìn)行計算:

雖然n-gram語言模型在實際應(yīng)用場景中有不錯的表現(xiàn),但它也存在一定的局限性。當(dāng)處理的文本中包含不在當(dāng)前語言模型的詞匯表中的單詞時,就會遇到未登錄詞(Out-Of-Vocabulary,OOV)問題。降低未登錄詞問題負(fù)面影響的策略有二:一是忽略不在現(xiàn)有n-gram語言模型的詞匯表中的所有單詞;二是在詞匯表中引入特殊詞元(例如“<UNK>”)來顯式表示詞匯表外單詞的概率。
n-gram語言模型的另一個問題是維數(shù)災(zāi)難(Curse of Dimensionality)。為了使n-gram語言模型能夠建模較長的上下文,我們需要增大n的值,但當(dāng)n變大時,需要計算對應(yīng)概率的n-gram的個數(shù)呈指數(shù)增長。某些n-gram在訓(xùn)練語料中極為稀疏,從而導(dǎo)致沒有足夠的數(shù)據(jù)來對其概率進(jìn)行準(zhǔn)確估測,甚至出現(xiàn)訓(xùn)練數(shù)據(jù)中未出現(xiàn)的n-gram被賦予零概率的情況。解決這個問題需要用到語言模型平滑(Language Model Smoothing)技術(shù),該技術(shù)將一定的概率分配給未見過的單詞或n-gram來平滑概率分布。
- Arduino開發(fā)實戰(zhàn)指南:機(jī)器人卷
- 不會被機(jī)器替代的人:智能時代的生存策略
- 賢二機(jī)器僧漫游人工智能
- 從零開始:機(jī)器學(xué)習(xí)的數(shù)學(xué)原理和算法實踐
- 自然語言處理導(dǎo)論
- 機(jī)器學(xué)習(xí)與數(shù)據(jù)科學(xué)(基于R的統(tǒng)計學(xué)習(xí)方法)
- 人人都能懂的人工智能
- 人工智能重塑世界(第2版)
- 揭秘大模型:從原理到實戰(zhàn)
- 心與芯:我們與機(jī)器人的無限未來
- 規(guī)則時代:虛擬現(xiàn)實、人工智能和區(qū)塊鏈構(gòu)建的游戲化未來
- 機(jī)器學(xué)習(xí)基礎(chǔ):從入門到求職
- 寫好論文:思維模型與AI輔助應(yīng)用
- 合成生物學(xué)智能化設(shè)計與應(yīng)用
- 金融智能:AI如何為銀行、保險、證券業(yè)賦能