pg电子游戏官网官方网站

書(shū)名：深度對(duì)話GPT-4提示工程實(shí)戰(zhàn)
作者名：仇華
本章字?jǐn)?shù)： 3334字
更新時(shí)間： 2024-07-05 18:01:27

1.2　大語(yǔ)言模型技術(shù)歷程

1.2.1　大語(yǔ)言模型技術(shù)路線

大語(yǔ)言模型（Large Language Model，LLM）技術(shù)是近年來(lái)人工智能領(lǐng)域的一項(xiàng)重要進(jìn)展。它通過(guò)在海量的文本數(shù)據(jù)上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)，使模型能夠習(xí)得豐富的語(yǔ)言知識(shí)，并能夠根據(jù)不同的任務(wù)和輸入生成合理的文本輸出。LLM技術(shù)的出現(xiàn)，為NLP領(lǐng)域帶來(lái)了革命性的變化，也為人機(jī)交互、內(nèi)容創(chuàng)作、知識(shí)獲取等多個(gè)場(chǎng)景提供了強(qiáng)大的支持。LLM技術(shù)的發(fā)展歷程如圖1-2所示。接下來(lái)，我們一起回顧LLM技術(shù)的發(fā)展歷程，分析其中的關(guān)鍵技術(shù)進(jìn)步，探討未來(lái)的挑戰(zhàn)與機(jī)遇。

圖1-2　LLM技術(shù)的發(fā)展歷程

神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型

LLM技術(shù)的起源可以追溯到2013年，當(dāng)時(shí)谷歌提出了一種基于RNN的語(yǔ)言模型，稱為神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型（Neural Network Language Model，NNLM）。這種模型能夠利用上下文信息預(yù)測(cè)下一個(gè)詞出現(xiàn)的概率，相比于傳統(tǒng)的基于統(tǒng)計(jì)的語(yǔ)言模型，神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型具有更好的泛化能力和更低的計(jì)算復(fù)雜度。然而，由于RNN存在梯度消失和梯度爆炸等問(wèn)題，限制了模型的深度和規(guī)模。

長(zhǎng)短期記憶網(wǎng)絡(luò)語(yǔ)言模型

2014年，谷歌又提出了一種基于長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM）的語(yǔ)言模型，稱為長(zhǎng)短期記憶網(wǎng)絡(luò)語(yǔ)言模型（LSTM-LM）。這種模型通過(guò)門(mén)控機(jī)制解決了 RNN 的梯度問(wèn)題，并能夠捕捉更長(zhǎng)時(shí)序的依賴關(guān)系。LSTM-LM 在多個(gè)語(yǔ)言建模任務(wù)上取得了顯著的性能提升，為后續(xù)的序列到序列模型（Seq2Seq）奠定了基礎(chǔ)。

Transformer模型

2017年，谷歌再次推出一種基于注意力機(jī)制（Attention）和自編碼器（AutoEncoder）的語(yǔ)言模型。這種模型摒棄了RNN和LSTM的循環(huán)結(jié)構(gòu)，通過(guò)注意力機(jī)制直接建立輸入序列中任意兩個(gè)位置之間的聯(lián)系。Transformer在并行計(jì)算和長(zhǎng)距離依賴方面具有明顯的優(yōu)勢(shì)，并在機(jī)器翻譯等任務(wù)上刷新了紀(jì)錄。具體來(lái)說(shuō)，Transformer在WMT 2014數(shù)據(jù)集的英語(yǔ)-德語(yǔ)翻譯任務(wù)中將BLEU分?jǐn)?shù)提高了2.8分。

BERT：預(yù)訓(xùn)練-微調(diào)框架

2018年，谷歌基于Transformer模型又提出了一種預(yù)訓(xùn)練-微調(diào)框架（Pre-training-Fine-tuning），稱為BERT（Bidirectional Encoder Representations from Transformers）。這種框架通過(guò)在大規(guī)模無(wú)標(biāo)注文本上進(jìn)行掩碼語(yǔ)言建模（Masked Language Modeling）和下一句預(yù)測(cè)（Next Sentence Prediction）兩種任務(wù)的預(yù)訓(xùn)練，得到一個(gè)通用的語(yǔ)言表示模型，然后根據(jù)不同的下游任務(wù)進(jìn)行微調(diào)，實(shí)現(xiàn)端到端的遷移學(xué)習(xí)。BERT在11個(gè)自然語(yǔ)言理解（Natural Language Understanding，NLU）任務(wù)上取得了突破性成果，例如在SQuAD v1.1問(wèn)答任務(wù)上，BERT將精確度提升至93.2%，超過(guò)了人類的表現(xiàn)。這種成功促進(jìn)了一系列基于Transformer模型和預(yù)訓(xùn)練-微調(diào)框架的LLM技術(shù)的研究。

GPT：生成式預(yù)訓(xùn)練變換器

2019年，OpenAI提出了一種基于Transformer模型和預(yù)訓(xùn)練-微調(diào)框架的生成式預(yù)訓(xùn)練模型，稱為GPT（Generative Pre-trained Transformer）。GPT 通過(guò)在大規(guī)模無(wú)標(biāo)注文本上進(jìn)行單向語(yǔ)言建模（Unidirectional Language Modeling）任務(wù)的預(yù)訓(xùn)練，可以生成具有連貫性和邏輯性的文本。隨后，OpenAI進(jìn)一步推出了GPT-2和GPT-3，大幅提高了模型的規(guī)模和性能。具體來(lái)說(shuō)，GPT-3擁有1750 億個(gè)參數(shù)，是GPT-2規(guī)模的116倍，同時(shí)在多個(gè)任務(wù)上的性能也得到了顯著提升。這引發(fā)了業(yè)界對(duì)大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的廣泛關(guān)注和討論。

在語(yǔ)言模型技術(shù)的發(fā)展歷程中，一些重要的技術(shù)突破為大語(yǔ)言模型技術(shù)的進(jìn)步鋪就了道路。首先，長(zhǎng)短期記憶網(wǎng)絡(luò)的出現(xiàn)，解決了循環(huán)神經(jīng)網(wǎng)絡(luò)中的梯度消失和梯度爆炸問(wèn)題，使模型能夠捕捉更長(zhǎng)期的時(shí)序依賴關(guān)系，為后續(xù)的序列到序列模型奠定了基礎(chǔ)。其次，自注意力機(jī)制的引入，使得模型能夠更為靈活地處理輸入到序列中的長(zhǎng)距離依賴關(guān)系，從而顯著提高了模型在機(jī)器翻譯等任務(wù)上的性能。最后，預(yù)訓(xùn)練-微調(diào)框架的運(yùn)用，將大規(guī)模無(wú)監(jiān)督預(yù)訓(xùn)練和有監(jiān)督微調(diào)相結(jié)合，實(shí)現(xiàn)了從通用語(yǔ)言知識(shí)到特定任務(wù)的遷移學(xué)習(xí)，使模型可以更好地適應(yīng)各種自然語(yǔ)言處理任務(wù)。

大語(yǔ)言模型技術(shù)的規(guī)模從最初的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的幾百萬(wàn)個(gè)參數(shù)到GPT-3的1750億個(gè)參數(shù)，經(jīng)歷了翻天覆地的變化。這種規(guī)模的增長(zhǎng)使模型具有更強(qiáng)大的表現(xiàn)力，可以掌握更豐富的語(yǔ)言知識(shí)。同時(shí)，隨著訓(xùn)練數(shù)據(jù)量的不斷增加，模型對(duì)海量文本中的語(yǔ)言規(guī)律和知識(shí)的學(xué)習(xí)也變得更加深入。然而，隨著模型規(guī)模的增大，計(jì)算資源和能源消耗也在不斷增加，這給模型的普及和應(yīng)用帶來(lái)了挑戰(zhàn)。

展望未來(lái)，大語(yǔ)言模型技術(shù)面臨著許多挑戰(zhàn)和機(jī)遇。例如，如何在保持模型性能的同時(shí)，降低模型規(guī)模和計(jì)算復(fù)雜度就是一個(gè)重要的課題。首先，可以通過(guò)模型壓縮、知識(shí)蒸餾等技術(shù)，降低模型的計(jì)算需求，使其更適合部署在資源受限的設(shè)備上。其次，在模型的可解釋性和安全性方面，需要進(jìn)一步研究如何讓模型的預(yù)測(cè)過(guò)程更加透明，避免出現(xiàn)意料之外的輸出，提高用戶對(duì)模型的信任。此外，隨著模型規(guī)模的不斷擴(kuò)大，如何有效利用模型的生成能力，推動(dòng)更多領(lǐng)域的應(yīng)用創(chuàng)新，也是值得探索的方向。

1.2.2　淺談智能涌現(xiàn)

涌現(xiàn)能力（Emergent Ability）是指一個(gè)系統(tǒng)在達(dá)到一定的復(fù)雜度和規(guī)模時(shí)出現(xiàn)的未預(yù)料到的新行為或新能力，表現(xiàn)為邏輯認(rèn)知、世界觀、思維鏈形成和多模態(tài)綜合能力等。在大語(yǔ)言模型領(lǐng)域，涌現(xiàn)能力指的是，當(dāng)模型規(guī)模達(dá)到某個(gè)閾值（大模型奇點(diǎn)）之前，增加參數(shù)數(shù)量帶來(lái)的性能提升相對(duì)較小，效果基本上等同于隨機(jī)，而在超過(guò)該閾值后，增加參數(shù)數(shù)量則會(huì)帶來(lái)顯著的改善。然而一旦突破大模型奇點(diǎn)之后，增加參數(shù)數(shù)量或者預(yù)訓(xùn)練語(yǔ)料帶來(lái)的性能提升是有限的，更多需要的是高質(zhì)量和多樣化的指令數(shù)據(jù)來(lái)激發(fā)它的泛化性。在沒(méi)有專門(mén)訓(xùn)練過(guò)的情況下，大語(yǔ)言模型也可以泛化到新的、未知的多模態(tài)數(shù)據(jù)樣本上，這樣就可以從原始數(shù)據(jù)中發(fā)現(xiàn)未知的新型特征和模式。圖1-3展示了論文“Emergent Abilities of Large Language Models”中5個(gè)語(yǔ)言模型的8種涌現(xiàn)能力，從中可以非常直觀地感受到涌現(xiàn)現(xiàn)象。

圖1-3　測(cè)試5個(gè)語(yǔ)言模型的8種涌現(xiàn)能力[1]

[1]　圖中的橫軸對(duì)應(yīng)的單位是每秒浮點(diǎn)運(yùn)算次數(shù)（Floating Point Operations Per Second，F(xiàn)LOPS）。

圖1-3子圖（A）～（D）來(lái)自基準(zhǔn)BIG-Bench中的4個(gè)涌現(xiàn)少樣本提示（Few-shot prompting）任務(wù)，該基準(zhǔn)包含了200多個(gè)評(píng)估語(yǔ)言模型的基準(zhǔn)套件。圖1-3子圖（A）是一個(gè)算術(shù)基準(zhǔn)測(cè)試，用于測(cè)試3位加減法和2位乘法。當(dāng)訓(xùn)練量較小時(shí)，GPT-3和LaMDA的準(zhǔn)確率接近0，而在訓(xùn)練量達(dá)到2×1022 FLOPS后，GPT-3的效果突然超越隨機(jī)，而LaMDA的閾值則為1023 FLOPS。對(duì)其他任務(wù)來(lái)說(shuō)，類似的涌現(xiàn)能力也出現(xiàn)在訓(xùn)練量達(dá)到類似規(guī)模時(shí)，這些任務(wù)包括國(guó)際音標(biāo)翻譯、單詞恢復(fù)，以及波斯語(yǔ)問(wèn)答。圖1-3子圖（E）展示了誠(chéng)實(shí)度問(wèn)答基準(zhǔn)上的少樣本提示的涌現(xiàn)能力，該基準(zhǔn)用來(lái)衡量誠(chéng)實(shí)回答問(wèn)題的能力。因?yàn)樵摶鶞?zhǔn)是通過(guò)對(duì)抗的方式針對(duì)GPT-3構(gòu)建的，所以即使將GPT-3放大到最大的規(guī)模，其效果也不會(huì)高于隨機(jī)。小規(guī)模Gopher模型的效果也接近隨機(jī)，但是當(dāng)模型規(guī)模放大至5×1023 FLOPS，其效果會(huì)突然高于隨機(jī)約20%。圖1-3子圖（F）展示了概念映射任務(wù)，在該任務(wù)中，語(yǔ)言模型必須學(xué)會(huì)映射一個(gè)概念領(lǐng)域，例如理解文本中關(guān)于方向的表示。同樣，使用大的GPT-3模型，效果才能高于隨機(jī)。圖1-3子圖（G）展示了多學(xué)科測(cè)試，覆蓋主題包含數(shù)學(xué)、歷史、法律等。對(duì)于模型GPT-3、Gopher和Chinchilla而言，當(dāng)訓(xùn)練計(jì)算量小于1022 FLOPS時(shí)，在所有的主題上的效果都趨于隨機(jī)，但是當(dāng)訓(xùn)練計(jì)算量達(dá)到3×1023～5×1023 FLOPS后，效果將遠(yuǎn)遠(yuǎn)高于隨機(jī)。最后，圖 1-3 子圖（H）展示了語(yǔ)義理解基準(zhǔn)，顯然，GPT-3 和 Chinchilla 即使放大至最大的規(guī)模5×1023 FLOPS，也不能通過(guò)單樣本（one shot）實(shí)現(xiàn)比隨機(jī)更好的效果。到目前為止的結(jié)果表明，單純地放大模型并不能解決基準(zhǔn)，但是當(dāng)PaLM被放大至2.5×1024 FLOPS（540B）時(shí)，優(yōu)于隨機(jī)的效果就出現(xiàn)了。

接下來(lái)，我們簡(jiǎn)單地從技術(shù)角度和數(shù)據(jù)角度對(duì)涌現(xiàn)能力進(jìn)行分析。涌現(xiàn)能力是 AI 模型處理復(fù)雜任務(wù)的重要指標(biāo)，它揭示了模型在解決需要大量主題集合和基于知識(shí)的問(wèn)題上的潛力。這種能力的出現(xiàn)與模型的技術(shù)架構(gòu)和數(shù)據(jù)質(zhì)量密切相關(guān)。深度學(xué)習(xí)作為一種強(qiáng)大的表示學(xué)習(xí)方法，其優(yōu)勢(shì)在于能夠提取數(shù)據(jù)中的層次結(jié)構(gòu)特征。多層神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)從基礎(chǔ)到高級(jí)的抽象表示，展現(xiàn)涌現(xiàn)能力。例如，在自然語(yǔ)言處理任務(wù)中，神經(jīng)網(wǎng)絡(luò)可以從字符、句法和語(yǔ)義級(jí)別學(xué)習(xí)有效的特征表示。模型的規(guī)模（或者說(shuō)參數(shù)數(shù)量）是影響涌現(xiàn)能力的關(guān)鍵因素。只有當(dāng)模型規(guī)模達(dá)到閾值時(shí)，模型才能展現(xiàn)對(duì)復(fù)雜任務(wù)的處理能力。然而，參數(shù)數(shù)量的增加也可能導(dǎo)致過(guò)擬合和計(jì)算成本提高，因此需要平衡模型的規(guī)模和性能。此外，訓(xùn)練方法和優(yōu)化算法的改進(jìn)也能提高模型的泛化能力和學(xué)習(xí)效率，進(jìn)而促進(jìn)涌現(xiàn)能力的出現(xiàn)。數(shù)據(jù)量和質(zhì)量同樣是決定涌現(xiàn)能力的關(guān)鍵因素。大量的高質(zhì)量數(shù)據(jù)可以提供豐富的樣本和多樣性，使模型能夠?qū)W到更多的知識(shí)和規(guī)律。然而，數(shù)據(jù)量的增加也會(huì)增加模型的訓(xùn)練成本和存儲(chǔ)需求。因此，除了追求數(shù)據(jù)量的增加，也需要關(guān)注數(shù)據(jù)質(zhì)量和多樣性，以提高模型的泛化能力和涌現(xiàn)能力。

總而言之，涌現(xiàn)能力的表現(xiàn)是模型架構(gòu)、參數(shù)規(guī)模、訓(xùn)練方法、數(shù)據(jù)量和質(zhì)量等多個(gè)因素共同作用的結(jié)果。在實(shí)際應(yīng)用中，需要綜合考慮這些因素，以提高模型的涌現(xiàn)能力，從而更好地解決復(fù)雜任務(wù)。

官术网_书友最值得收藏!

深度對(duì)話GPT-4提示工程實(shí)戰(zhàn)

1.2 大語(yǔ)言模型技術(shù)歷程

1.2.1 大語(yǔ)言模型技術(shù)路線