官术网_书友最值得收藏!

1.2 大語(yǔ)言模型技術(shù)歷程

1.2.1 大語(yǔ)言模型技術(shù)路線

大語(yǔ)言模型(Large Language Model,LLM)技術(shù)是近年來(lái)人工智能領(lǐng)域的一項(xiàng)重要進(jìn)展。它通過(guò)在海量的文本數(shù)據(jù)上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),使模型能夠習(xí)得豐富的語(yǔ)言知識(shí),并能夠根據(jù)不同的任務(wù)和輸入生成合理的文本輸出。LLM技術(shù)的出現(xiàn),為NLP領(lǐng)域帶來(lái)了革命性的變化,也為人機(jī)交互、內(nèi)容創(chuàng)作、知識(shí)獲取等多個(gè)場(chǎng)景提供了強(qiáng)大的支持。LLM技術(shù)的發(fā)展歷程如圖1-2所示。接下來(lái),我們一起回顧LLM技術(shù)的發(fā)展歷程,分析其中的關(guān)鍵技術(shù)進(jìn)步,探討未來(lái)的挑戰(zhàn)與機(jī)遇。

圖1-2 LLM技術(shù)的發(fā)展歷程

神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型

LLM技術(shù)的起源可以追溯到2013年,當(dāng)時(shí)谷歌提出了一種基于RNN的語(yǔ)言模型,稱為神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(Neural Network Language Model,NNLM)。這種模型能夠利用上下文信息預(yù)測(cè)下一個(gè)詞出現(xiàn)的概率,相比于傳統(tǒng)的基于統(tǒng)計(jì)的語(yǔ)言模型,神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型具有更好的泛化能力和更低的計(jì)算復(fù)雜度。然而,由于RNN存在梯度消失和梯度爆炸等問(wèn)題,限制了模型的深度和規(guī)模。

長(zhǎng)短期記憶網(wǎng)絡(luò)語(yǔ)言模型

2014年,谷歌又提出了一種基于長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)的語(yǔ)言模型,稱為長(zhǎng)短期記憶網(wǎng)絡(luò)語(yǔ)言模型(LSTM-LM)。這種模型通過(guò)門(mén)控機(jī)制解決了 RNN 的梯度問(wèn)題,并能夠捕捉更長(zhǎng)時(shí)序的依賴關(guān)系。LSTM-LM 在多個(gè)語(yǔ)言建模任務(wù)上取得了顯著的性能提升,為后續(xù)的序列到序列模型(Seq2Seq)奠定了基礎(chǔ)。

Transformer模型

2017年,谷歌再次推出一種基于注意力機(jī)制(Attention)和自編碼器(AutoEncoder)的語(yǔ)言模型。這種模型摒棄了RNN和LSTM的循環(huán)結(jié)構(gòu),通過(guò)注意力機(jī)制直接建立輸入序列中任意兩個(gè)位置之間的聯(lián)系。Transformer在并行計(jì)算和長(zhǎng)距離依賴方面具有明顯的優(yōu)勢(shì),并在機(jī)器翻譯等任務(wù)上刷新了紀(jì)錄。具體來(lái)說(shuō),Transformer在WMT 2014數(shù)據(jù)集的英語(yǔ)-德語(yǔ)翻譯任務(wù)中將BLEU分?jǐn)?shù)提高了2.8分。

BERT:預(yù)訓(xùn)練-微調(diào)框架

2018年,谷歌基于Transformer模型又提出了一種預(yù)訓(xùn)練-微調(diào)框架(Pre-training-Fine-tuning),稱為BERT(Bidirectional Encoder Representations from Transformers)。這種框架通過(guò)在大規(guī)模無(wú)標(biāo)注文本上進(jìn)行掩碼語(yǔ)言建模(Masked Language Modeling)和下一句預(yù)測(cè)(Next Sentence Prediction)兩種任務(wù)的預(yù)訓(xùn)練,得到一個(gè)通用的語(yǔ)言表示模型,然后根據(jù)不同的下游任務(wù)進(jìn)行微調(diào),實(shí)現(xiàn)端到端的遷移學(xué)習(xí)。BERT在11個(gè)自然語(yǔ)言理解(Natural Language Understanding,NLU)任務(wù)上取得了突破性成果,例如在SQuAD v1.1問(wèn)答任務(wù)上,BERT將精確度提升至93.2%,超過(guò)了人類的表現(xiàn)。這種成功促進(jìn)了一系列基于Transformer模型和預(yù)訓(xùn)練-微調(diào)框架的LLM技術(shù)的研究。

GPT:生成式預(yù)訓(xùn)練變換器

2019年,OpenAI提出了一種基于Transformer模型和預(yù)訓(xùn)練-微調(diào)框架的生成式預(yù)訓(xùn)練模型,稱為GPT(Generative Pre-trained Transformer)。GPT 通過(guò)在大規(guī)模無(wú)標(biāo)注文本上進(jìn)行單向語(yǔ)言建模(Unidirectional Language Modeling)任務(wù)的預(yù)訓(xùn)練,可以生成具有連貫性和邏輯性的文本。隨后,OpenAI進(jìn)一步推出了GPT-2和GPT-3,大幅提高了模型的規(guī)模和性能。具體來(lái)說(shuō),GPT-3擁有1750 億個(gè)參數(shù),是GPT-2規(guī)模的116倍,同時(shí)在多個(gè)任務(wù)上的性能也得到了顯著提升。這引發(fā)了業(yè)界對(duì)大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的廣泛關(guān)注和討論。

在語(yǔ)言模型技術(shù)的發(fā)展歷程中,一些重要的技術(shù)突破為大語(yǔ)言模型技術(shù)的進(jìn)步鋪就了道路。首先,長(zhǎng)短期記憶網(wǎng)絡(luò)的出現(xiàn),解決了循環(huán)神經(jīng)網(wǎng)絡(luò)中的梯度消失和梯度爆炸問(wèn)題,使模型能夠捕捉更長(zhǎng)期的時(shí)序依賴關(guān)系,為后續(xù)的序列到序列模型奠定了基礎(chǔ)。其次,自注意力機(jī)制的引入,使得模型能夠更為靈活地處理輸入到序列中的長(zhǎng)距離依賴關(guān)系,從而顯著提高了模型在機(jī)器翻譯等任務(wù)上的性能。最后,預(yù)訓(xùn)練-微調(diào)框架的運(yùn)用,將大規(guī)模無(wú)監(jiān)督預(yù)訓(xùn)練和有監(jiān)督微調(diào)相結(jié)合,實(shí)現(xiàn)了從通用語(yǔ)言知識(shí)到特定任務(wù)的遷移學(xué)習(xí),使模型可以更好地適應(yīng)各種自然語(yǔ)言處理任務(wù)。

大語(yǔ)言模型技術(shù)的規(guī)模從最初的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的幾百萬(wàn)個(gè)參數(shù)到GPT-3的1750億個(gè)參數(shù),經(jīng)歷了翻天覆地的變化。這種規(guī)模的增長(zhǎng)使模型具有更強(qiáng)大的表現(xiàn)力,可以掌握更豐富的語(yǔ)言知識(shí)。同時(shí),隨著訓(xùn)練數(shù)據(jù)量的不斷增加,模型對(duì)海量文本中的語(yǔ)言規(guī)律和知識(shí)的學(xué)習(xí)也變得更加深入。然而,隨著模型規(guī)模的增大,計(jì)算資源和能源消耗也在不斷增加,這給模型的普及和應(yīng)用帶來(lái)了挑戰(zhàn)。

展望未來(lái),大語(yǔ)言模型技術(shù)面臨著許多挑戰(zhàn)和機(jī)遇。例如,如何在保持模型性能的同時(shí),降低模型規(guī)模和計(jì)算復(fù)雜度就是一個(gè)重要的課題。首先,可以通過(guò)模型壓縮、知識(shí)蒸餾等技術(shù),降低模型的計(jì)算需求,使其更適合部署在資源受限的設(shè)備上。其次,在模型的可解釋性和安全性方面,需要進(jìn)一步研究如何讓模型的預(yù)測(cè)過(guò)程更加透明,避免出現(xiàn)意料之外的輸出,提高用戶對(duì)模型的信任。此外,隨著模型規(guī)模的不斷擴(kuò)大,如何有效利用模型的生成能力,推動(dòng)更多領(lǐng)域的應(yīng)用創(chuàng)新,也是值得探索的方向。

1.2.2 淺談智能涌現(xiàn)

涌現(xiàn)能力(Emergent Ability)是指一個(gè)系統(tǒng)在達(dá)到一定的復(fù)雜度和規(guī)模時(shí)出現(xiàn)的未預(yù)料到的新行為或新能力,表現(xiàn)為邏輯認(rèn)知、世界觀、思維鏈形成和多模態(tài)綜合能力等。在大語(yǔ)言模型領(lǐng)域,涌現(xiàn)能力指的是,當(dāng)模型規(guī)模達(dá)到某個(gè)閾值(大模型奇點(diǎn))之前,增加參數(shù)數(shù)量帶來(lái)的性能提升相對(duì)較小,效果基本上等同于隨機(jī),而在超過(guò)該閾值后,增加參數(shù)數(shù)量則會(huì)帶來(lái)顯著的改善。然而一旦突破大模型奇點(diǎn)之后,增加參數(shù)數(shù)量或者預(yù)訓(xùn)練語(yǔ)料帶來(lái)的性能提升是有限的,更多需要的是高質(zhì)量和多樣化的指令數(shù)據(jù)來(lái)激發(fā)它的泛化性。在沒(méi)有專門(mén)訓(xùn)練過(guò)的情況下,大語(yǔ)言模型也可以泛化到新的、未知的多模態(tài)數(shù)據(jù)樣本上,這樣就可以從原始數(shù)據(jù)中發(fā)現(xiàn)未知的新型特征和模式。圖1-3展示了論文“Emergent Abilities of Large Language Models”中5個(gè)語(yǔ)言模型的8種涌現(xiàn)能力,從中可以非常直觀地感受到涌現(xiàn)現(xiàn)象。

圖1-3 測(cè)試5個(gè)語(yǔ)言模型的8種涌現(xiàn)能力[1]


[1] 圖中的橫軸對(duì)應(yīng)的單位是每秒浮點(diǎn)運(yùn)算次數(shù)(Floating Point Operations Per Second,F(xiàn)LOPS)。

圖1-3子圖(A)~(D)來(lái)自基準(zhǔn)BIG-Bench中的4個(gè)涌現(xiàn)少樣本提示(Few-shot prompting)任務(wù),該基準(zhǔn)包含了200多個(gè)評(píng)估語(yǔ)言模型的基準(zhǔn)套件。圖1-3子圖(A)是一個(gè)算術(shù)基準(zhǔn)測(cè)試,用于測(cè)試3位加減法和2位乘法。當(dāng)訓(xùn)練量較小時(shí),GPT-3和LaMDA的準(zhǔn)確率接近0,而在訓(xùn)練量達(dá)到2×1022 FLOPS后,GPT-3的效果突然超越隨機(jī),而LaMDA的閾值則為1023 FLOPS。對(duì)其他任務(wù)來(lái)說(shuō),類似的涌現(xiàn)能力也出現(xiàn)在訓(xùn)練量達(dá)到類似規(guī)模時(shí),這些任務(wù)包括國(guó)際音標(biāo)翻譯、單詞恢復(fù),以及波斯語(yǔ)問(wèn)答。圖1-3子圖(E)展示了誠(chéng)實(shí)度問(wèn)答基準(zhǔn)上的少樣本提示的涌現(xiàn)能力,該基準(zhǔn)用來(lái)衡量誠(chéng)實(shí)回答問(wèn)題的能力。因?yàn)樵摶鶞?zhǔn)是通過(guò)對(duì)抗的方式針對(duì)GPT-3構(gòu)建的,所以即使將GPT-3放大到最大的規(guī)模,其效果也不會(huì)高于隨機(jī)。小規(guī)模Gopher模型的效果也接近隨機(jī),但是當(dāng)模型規(guī)模放大至5×1023 FLOPS,其效果會(huì)突然高于隨機(jī)約20%。圖1-3子圖(F)展示了概念映射任務(wù),在該任務(wù)中,語(yǔ)言模型必須學(xué)會(huì)映射一個(gè)概念領(lǐng)域,例如理解文本中關(guān)于方向的表示。同樣,使用大的GPT-3模型,效果才能高于隨機(jī)。圖1-3子圖(G)展示了多學(xué)科測(cè)試,覆蓋主題包含數(shù)學(xué)、歷史、法律等。對(duì)于模型GPT-3、Gopher和Chinchilla而言,當(dāng)訓(xùn)練計(jì)算量小于1022 FLOPS時(shí),在所有的主題上的效果都趨于隨機(jī),但是當(dāng)訓(xùn)練計(jì)算量達(dá)到3×1023~5×1023 FLOPS后,效果將遠(yuǎn)遠(yuǎn)高于隨機(jī)。最后,圖 1-3 子圖(H)展示了語(yǔ)義理解基準(zhǔn),顯然,GPT-3 和 Chinchilla 即使放大至最大的規(guī)模5×1023 FLOPS,也不能通過(guò)單樣本(one shot)實(shí)現(xiàn)比隨機(jī)更好的效果。到目前為止的結(jié)果表明,單純地放大模型并不能解決基準(zhǔn),但是當(dāng)PaLM被放大至2.5×1024 FLOPS(540B)時(shí),優(yōu)于隨機(jī)的效果就出現(xiàn)了。

接下來(lái),我們簡(jiǎn)單地從技術(shù)角度和數(shù)據(jù)角度對(duì)涌現(xiàn)能力進(jìn)行分析。涌現(xiàn)能力是 AI 模型處理復(fù)雜任務(wù)的重要指標(biāo),它揭示了模型在解決需要大量主題集合和基于知識(shí)的問(wèn)題上的潛力。這種能力的出現(xiàn)與模型的技術(shù)架構(gòu)和數(shù)據(jù)質(zhì)量密切相關(guān)。深度學(xué)習(xí)作為一種強(qiáng)大的表示學(xué)習(xí)方法,其優(yōu)勢(shì)在于能夠提取數(shù)據(jù)中的層次結(jié)構(gòu)特征。多層神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)從基礎(chǔ)到高級(jí)的抽象表示,展現(xiàn)涌現(xiàn)能力。例如,在自然語(yǔ)言處理任務(wù)中,神經(jīng)網(wǎng)絡(luò)可以從字符、句法和語(yǔ)義級(jí)別學(xué)習(xí)有效的特征表示。模型的規(guī)模(或者說(shuō)參數(shù)數(shù)量)是影響涌現(xiàn)能力的關(guān)鍵因素。只有當(dāng)模型規(guī)模達(dá)到閾值時(shí),模型才能展現(xiàn)對(duì)復(fù)雜任務(wù)的處理能力。然而,參數(shù)數(shù)量的增加也可能導(dǎo)致過(guò)擬合和計(jì)算成本提高,因此需要平衡模型的規(guī)模和性能。此外,訓(xùn)練方法和優(yōu)化算法的改進(jìn)也能提高模型的泛化能力和學(xué)習(xí)效率,進(jìn)而促進(jìn)涌現(xiàn)能力的出現(xiàn)。數(shù)據(jù)量和質(zhì)量同樣是決定涌現(xiàn)能力的關(guān)鍵因素。大量的高質(zhì)量數(shù)據(jù)可以提供豐富的樣本和多樣性,使模型能夠?qū)W到更多的知識(shí)和規(guī)律。然而,數(shù)據(jù)量的增加也會(huì)增加模型的訓(xùn)練成本和存儲(chǔ)需求。因此,除了追求數(shù)據(jù)量的增加,也需要關(guān)注數(shù)據(jù)質(zhì)量和多樣性,以提高模型的泛化能力和涌現(xiàn)能力。

總而言之,涌現(xiàn)能力的表現(xiàn)是模型架構(gòu)、參數(shù)規(guī)模、訓(xùn)練方法、數(shù)據(jù)量和質(zhì)量等多個(gè)因素共同作用的結(jié)果。在實(shí)際應(yīng)用中,需要綜合考慮這些因素,以提高模型的涌現(xiàn)能力,從而更好地解決復(fù)雜任務(wù)。

主站蜘蛛池模板: 清镇市| 新干县| 西藏| 理塘县| 锦屏县| 金华市| 杨浦区| 乌兰察布市| 铁岭县| 西乌| 黑水县| 清丰县| 瓦房店市| 广丰县| 历史| 江源县| 陆河县| 彭阳县| 西乌珠穆沁旗| 泽普县| 邯郸市| 郁南县| 佛教| 阿拉善盟| 东安县| 杭锦后旗| 桃江县| 拉孜县| 娱乐| 包头市| 云梦县| 达日县| 永胜县| 泽库县| 灌阳县| 玉溪市| 南部县| 毕节市| 拉萨市| 平昌县| 呼玛县|