- 深度對(duì)話GPT-4提示工程實(shí)戰(zhàn)
- 仇華
- 3334字
- 2024-07-05 18:01:27
1.2 大語(yǔ)言模型技術(shù)歷程
1.2.1 大語(yǔ)言模型技術(shù)路線
大語(yǔ)言模型(Large Language Model,LLM)技術(shù)是近年來(lái)人工智能領(lǐng)域的一項(xiàng)重要進(jìn)展。它通過(guò)在海量的文本數(shù)據(jù)上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),使模型能夠習(xí)得豐富的語(yǔ)言知識(shí),并能夠根據(jù)不同的任務(wù)和輸入生成合理的文本輸出。LLM技術(shù)的出現(xiàn),為NLP領(lǐng)域帶來(lái)了革命性的變化,也為人機(jī)交互、內(nèi)容創(chuàng)作、知識(shí)獲取等多個(gè)場(chǎng)景提供了強(qiáng)大的支持。LLM技術(shù)的發(fā)展歷程如圖1-2所示。接下來(lái),我們一起回顧LLM技術(shù)的發(fā)展歷程,分析其中的關(guān)鍵技術(shù)進(jìn)步,探討未來(lái)的挑戰(zhàn)與機(jī)遇。

圖1-2 LLM技術(shù)的發(fā)展歷程
神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型
LLM技術(shù)的起源可以追溯到2013年,當(dāng)時(shí)谷歌提出了一種基于RNN的語(yǔ)言模型,稱為神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(Neural Network Language Model,NNLM)。這種模型能夠利用上下文信息預(yù)測(cè)下一個(gè)詞出現(xiàn)的概率,相比于傳統(tǒng)的基于統(tǒng)計(jì)的語(yǔ)言模型,神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型具有更好的泛化能力和更低的計(jì)算復(fù)雜度。然而,由于RNN存在梯度消失和梯度爆炸等問(wèn)題,限制了模型的深度和規(guī)模。
長(zhǎng)短期記憶網(wǎng)絡(luò)語(yǔ)言模型
2014年,谷歌又提出了一種基于長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)的語(yǔ)言模型,稱為長(zhǎng)短期記憶網(wǎng)絡(luò)語(yǔ)言模型(LSTM-LM)。這種模型通過(guò)門(mén)控機(jī)制解決了 RNN 的梯度問(wèn)題,并能夠捕捉更長(zhǎng)時(shí)序的依賴關(guān)系。LSTM-LM 在多個(gè)語(yǔ)言建模任務(wù)上取得了顯著的性能提升,為后續(xù)的序列到序列模型(Seq2Seq)奠定了基礎(chǔ)。
Transformer模型
2017年,谷歌再次推出一種基于注意力機(jī)制(Attention)和自編碼器(AutoEncoder)的語(yǔ)言模型。這種模型摒棄了RNN和LSTM的循環(huán)結(jié)構(gòu),通過(guò)注意力機(jī)制直接建立輸入序列中任意兩個(gè)位置之間的聯(lián)系。Transformer在并行計(jì)算和長(zhǎng)距離依賴方面具有明顯的優(yōu)勢(shì),并在機(jī)器翻譯等任務(wù)上刷新了紀(jì)錄。具體來(lái)說(shuō),Transformer在WMT 2014數(shù)據(jù)集的英語(yǔ)-德語(yǔ)翻譯任務(wù)中將BLEU分?jǐn)?shù)提高了2.8分。
BERT:預(yù)訓(xùn)練-微調(diào)框架
2018年,谷歌基于Transformer模型又提出了一種預(yù)訓(xùn)練-微調(diào)框架(Pre-training-Fine-tuning),稱為BERT(Bidirectional Encoder Representations from Transformers)。這種框架通過(guò)在大規(guī)模無(wú)標(biāo)注文本上進(jìn)行掩碼語(yǔ)言建模(Masked Language Modeling)和下一句預(yù)測(cè)(Next Sentence Prediction)兩種任務(wù)的預(yù)訓(xùn)練,得到一個(gè)通用的語(yǔ)言表示模型,然后根據(jù)不同的下游任務(wù)進(jìn)行微調(diào),實(shí)現(xiàn)端到端的遷移學(xué)習(xí)。BERT在11個(gè)自然語(yǔ)言理解(Natural Language Understanding,NLU)任務(wù)上取得了突破性成果,例如在SQuAD v1.1問(wèn)答任務(wù)上,BERT將精確度提升至93.2%,超過(guò)了人類的表現(xiàn)。這種成功促進(jìn)了一系列基于Transformer模型和預(yù)訓(xùn)練-微調(diào)框架的LLM技術(shù)的研究。
GPT:生成式預(yù)訓(xùn)練變換器
2019年,OpenAI提出了一種基于Transformer模型和預(yù)訓(xùn)練-微調(diào)框架的生成式預(yù)訓(xùn)練模型,稱為GPT(Generative Pre-trained Transformer)。GPT 通過(guò)在大規(guī)模無(wú)標(biāo)注文本上進(jìn)行單向語(yǔ)言建模(Unidirectional Language Modeling)任務(wù)的預(yù)訓(xùn)練,可以生成具有連貫性和邏輯性的文本。隨后,OpenAI進(jìn)一步推出了GPT-2和GPT-3,大幅提高了模型的規(guī)模和性能。具體來(lái)說(shuō),GPT-3擁有1750 億個(gè)參數(shù),是GPT-2規(guī)模的116倍,同時(shí)在多個(gè)任務(wù)上的性能也得到了顯著提升。這引發(fā)了業(yè)界對(duì)大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的廣泛關(guān)注和討論。
在語(yǔ)言模型技術(shù)的發(fā)展歷程中,一些重要的技術(shù)突破為大語(yǔ)言模型技術(shù)的進(jìn)步鋪就了道路。首先,長(zhǎng)短期記憶網(wǎng)絡(luò)的出現(xiàn),解決了循環(huán)神經(jīng)網(wǎng)絡(luò)中的梯度消失和梯度爆炸問(wèn)題,使模型能夠捕捉更長(zhǎng)期的時(shí)序依賴關(guān)系,為后續(xù)的序列到序列模型奠定了基礎(chǔ)。其次,自注意力機(jī)制的引入,使得模型能夠更為靈活地處理輸入到序列中的長(zhǎng)距離依賴關(guān)系,從而顯著提高了模型在機(jī)器翻譯等任務(wù)上的性能。最后,預(yù)訓(xùn)練-微調(diào)框架的運(yùn)用,將大規(guī)模無(wú)監(jiān)督預(yù)訓(xùn)練和有監(jiān)督微調(diào)相結(jié)合,實(shí)現(xiàn)了從通用語(yǔ)言知識(shí)到特定任務(wù)的遷移學(xué)習(xí),使模型可以更好地適應(yīng)各種自然語(yǔ)言處理任務(wù)。
大語(yǔ)言模型技術(shù)的規(guī)模從最初的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的幾百萬(wàn)個(gè)參數(shù)到GPT-3的1750億個(gè)參數(shù),經(jīng)歷了翻天覆地的變化。這種規(guī)模的增長(zhǎng)使模型具有更強(qiáng)大的表現(xiàn)力,可以掌握更豐富的語(yǔ)言知識(shí)。同時(shí),隨著訓(xùn)練數(shù)據(jù)量的不斷增加,模型對(duì)海量文本中的語(yǔ)言規(guī)律和知識(shí)的學(xué)習(xí)也變得更加深入。然而,隨著模型規(guī)模的增大,計(jì)算資源和能源消耗也在不斷增加,這給模型的普及和應(yīng)用帶來(lái)了挑戰(zhàn)。
展望未來(lái),大語(yǔ)言模型技術(shù)面臨著許多挑戰(zhàn)和機(jī)遇。例如,如何在保持模型性能的同時(shí),降低模型規(guī)模和計(jì)算復(fù)雜度就是一個(gè)重要的課題。首先,可以通過(guò)模型壓縮、知識(shí)蒸餾等技術(shù),降低模型的計(jì)算需求,使其更適合部署在資源受限的設(shè)備上。其次,在模型的可解釋性和安全性方面,需要進(jìn)一步研究如何讓模型的預(yù)測(cè)過(guò)程更加透明,避免出現(xiàn)意料之外的輸出,提高用戶對(duì)模型的信任。此外,隨著模型規(guī)模的不斷擴(kuò)大,如何有效利用模型的生成能力,推動(dòng)更多領(lǐng)域的應(yīng)用創(chuàng)新,也是值得探索的方向。
1.2.2 淺談智能涌現(xiàn)
涌現(xiàn)能力(Emergent Ability)是指一個(gè)系統(tǒng)在達(dá)到一定的復(fù)雜度和規(guī)模時(shí)出現(xiàn)的未預(yù)料到的新行為或新能力,表現(xiàn)為邏輯認(rèn)知、世界觀、思維鏈形成和多模態(tài)綜合能力等。在大語(yǔ)言模型領(lǐng)域,涌現(xiàn)能力指的是,當(dāng)模型規(guī)模達(dá)到某個(gè)閾值(大模型奇點(diǎn))之前,增加參數(shù)數(shù)量帶來(lái)的性能提升相對(duì)較小,效果基本上等同于隨機(jī),而在超過(guò)該閾值后,增加參數(shù)數(shù)量則會(huì)帶來(lái)顯著的改善。然而一旦突破大模型奇點(diǎn)之后,增加參數(shù)數(shù)量或者預(yù)訓(xùn)練語(yǔ)料帶來(lái)的性能提升是有限的,更多需要的是高質(zhì)量和多樣化的指令數(shù)據(jù)來(lái)激發(fā)它的泛化性。在沒(méi)有專門(mén)訓(xùn)練過(guò)的情況下,大語(yǔ)言模型也可以泛化到新的、未知的多模態(tài)數(shù)據(jù)樣本上,這樣就可以從原始數(shù)據(jù)中發(fā)現(xiàn)未知的新型特征和模式。圖1-3展示了論文“Emergent Abilities of Large Language Models”中5個(gè)語(yǔ)言模型的8種涌現(xiàn)能力,從中可以非常直觀地感受到涌現(xiàn)現(xiàn)象。

圖1-3 測(cè)試5個(gè)語(yǔ)言模型的8種涌現(xiàn)能力[1]
[1] 圖中的橫軸對(duì)應(yīng)的單位是每秒浮點(diǎn)運(yùn)算次數(shù)(Floating Point Operations Per Second,F(xiàn)LOPS)。
圖1-3子圖(A)~(D)來(lái)自基準(zhǔn)BIG-Bench中的4個(gè)涌現(xiàn)少樣本提示(Few-shot prompting)任務(wù),該基準(zhǔn)包含了200多個(gè)評(píng)估語(yǔ)言模型的基準(zhǔn)套件。圖1-3子圖(A)是一個(gè)算術(shù)基準(zhǔn)測(cè)試,用于測(cè)試3位加減法和2位乘法。當(dāng)訓(xùn)練量較小時(shí),GPT-3和LaMDA的準(zhǔn)確率接近0,而在訓(xùn)練量達(dá)到2×1022 FLOPS后,GPT-3的效果突然超越隨機(jī),而LaMDA的閾值則為1023 FLOPS。對(duì)其他任務(wù)來(lái)說(shuō),類似的涌現(xiàn)能力也出現(xiàn)在訓(xùn)練量達(dá)到類似規(guī)模時(shí),這些任務(wù)包括國(guó)際音標(biāo)翻譯、單詞恢復(fù),以及波斯語(yǔ)問(wèn)答。圖1-3子圖(E)展示了誠(chéng)實(shí)度問(wèn)答基準(zhǔn)上的少樣本提示的涌現(xiàn)能力,該基準(zhǔn)用來(lái)衡量誠(chéng)實(shí)回答問(wèn)題的能力。因?yàn)樵摶鶞?zhǔn)是通過(guò)對(duì)抗的方式針對(duì)GPT-3構(gòu)建的,所以即使將GPT-3放大到最大的規(guī)模,其效果也不會(huì)高于隨機(jī)。小規(guī)模Gopher模型的效果也接近隨機(jī),但是當(dāng)模型規(guī)模放大至5×1023 FLOPS,其效果會(huì)突然高于隨機(jī)約20%。圖1-3子圖(F)展示了概念映射任務(wù),在該任務(wù)中,語(yǔ)言模型必須學(xué)會(huì)映射一個(gè)概念領(lǐng)域,例如理解文本中關(guān)于方向的表示。同樣,使用大的GPT-3模型,效果才能高于隨機(jī)。圖1-3子圖(G)展示了多學(xué)科測(cè)試,覆蓋主題包含數(shù)學(xué)、歷史、法律等。對(duì)于模型GPT-3、Gopher和Chinchilla而言,當(dāng)訓(xùn)練計(jì)算量小于1022 FLOPS時(shí),在所有的主題上的效果都趨于隨機(jī),但是當(dāng)訓(xùn)練計(jì)算量達(dá)到3×1023~5×1023 FLOPS后,效果將遠(yuǎn)遠(yuǎn)高于隨機(jī)。最后,圖 1-3 子圖(H)展示了語(yǔ)義理解基準(zhǔn),顯然,GPT-3 和 Chinchilla 即使放大至最大的規(guī)模5×1023 FLOPS,也不能通過(guò)單樣本(one shot)實(shí)現(xiàn)比隨機(jī)更好的效果。到目前為止的結(jié)果表明,單純地放大模型并不能解決基準(zhǔn),但是當(dāng)PaLM被放大至2.5×1024 FLOPS(540B)時(shí),優(yōu)于隨機(jī)的效果就出現(xiàn)了。
接下來(lái),我們簡(jiǎn)單地從技術(shù)角度和數(shù)據(jù)角度對(duì)涌現(xiàn)能力進(jìn)行分析。涌現(xiàn)能力是 AI 模型處理復(fù)雜任務(wù)的重要指標(biāo),它揭示了模型在解決需要大量主題集合和基于知識(shí)的問(wèn)題上的潛力。這種能力的出現(xiàn)與模型的技術(shù)架構(gòu)和數(shù)據(jù)質(zhì)量密切相關(guān)。深度學(xué)習(xí)作為一種強(qiáng)大的表示學(xué)習(xí)方法,其優(yōu)勢(shì)在于能夠提取數(shù)據(jù)中的層次結(jié)構(gòu)特征。多層神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)從基礎(chǔ)到高級(jí)的抽象表示,展現(xiàn)涌現(xiàn)能力。例如,在自然語(yǔ)言處理任務(wù)中,神經(jīng)網(wǎng)絡(luò)可以從字符、句法和語(yǔ)義級(jí)別學(xué)習(xí)有效的特征表示。模型的規(guī)模(或者說(shuō)參數(shù)數(shù)量)是影響涌現(xiàn)能力的關(guān)鍵因素。只有當(dāng)模型規(guī)模達(dá)到閾值時(shí),模型才能展現(xiàn)對(duì)復(fù)雜任務(wù)的處理能力。然而,參數(shù)數(shù)量的增加也可能導(dǎo)致過(guò)擬合和計(jì)算成本提高,因此需要平衡模型的規(guī)模和性能。此外,訓(xùn)練方法和優(yōu)化算法的改進(jìn)也能提高模型的泛化能力和學(xué)習(xí)效率,進(jìn)而促進(jìn)涌現(xiàn)能力的出現(xiàn)。數(shù)據(jù)量和質(zhì)量同樣是決定涌現(xiàn)能力的關(guān)鍵因素。大量的高質(zhì)量數(shù)據(jù)可以提供豐富的樣本和多樣性,使模型能夠?qū)W到更多的知識(shí)和規(guī)律。然而,數(shù)據(jù)量的增加也會(huì)增加模型的訓(xùn)練成本和存儲(chǔ)需求。因此,除了追求數(shù)據(jù)量的增加,也需要關(guān)注數(shù)據(jù)質(zhì)量和多樣性,以提高模型的泛化能力和涌現(xiàn)能力。
總而言之,涌現(xiàn)能力的表現(xiàn)是模型架構(gòu)、參數(shù)規(guī)模、訓(xùn)練方法、數(shù)據(jù)量和質(zhì)量等多個(gè)因素共同作用的結(jié)果。在實(shí)際應(yīng)用中,需要綜合考慮這些因素,以提高模型的涌現(xiàn)能力,從而更好地解決復(fù)雜任務(wù)。
- 巧用ChatGPT進(jìn)行數(shù)據(jù)分析與挖掘
- 機(jī)器人系統(tǒng)設(shè)計(jì)及應(yīng)用
- 機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用
- 人工智能+機(jī)器人入門(mén)與實(shí)戰(zhàn)
- 機(jī)器學(xué)習(xí)
- 虛擬現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí)技術(shù)
- 生成式人工智能(基于PyTorch實(shí)現(xiàn))
- PyTorch深度學(xué)習(xí)應(yīng)用實(shí)戰(zhàn)
- 革新:科技改變生活
- DeepSeek高效提問(wèn)指南:提出好問(wèn)題,才有好答案
- AIGC輔助軟件開(kāi)發(fā):ChatGPT 10倍效率編程實(shí)戰(zhàn)
- 智能控制
- AI效率手冊(cè):從ChatGPT開(kāi)啟高效能
- Manus極簡(jiǎn)入門(mén):從0到1快速打造你的AI智能體
- 人工智能革命:開(kāi)啟超級(jí)智能新時(shí)代