- 深度對話GPT-4提示工程實戰(zhàn)
- 仇華
- 3334字
- 2024-07-05 18:01:27
1.2 大語言模型技術(shù)歷程
1.2.1 大語言模型技術(shù)路線
大語言模型(Large Language Model,LLM)技術(shù)是近年來人工智能領(lǐng)域的一項重要進展。它通過在海量的文本數(shù)據(jù)上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),使模型能夠習(xí)得豐富的語言知識,并能夠根據(jù)不同的任務(wù)和輸入生成合理的文本輸出。LLM技術(shù)的出現(xiàn),為NLP領(lǐng)域帶來了革命性的變化,也為人機交互、內(nèi)容創(chuàng)作、知識獲取等多個場景提供了強大的支持。LLM技術(shù)的發(fā)展歷程如圖1-2所示。接下來,我們一起回顧LLM技術(shù)的發(fā)展歷程,分析其中的關(guān)鍵技術(shù)進步,探討未來的挑戰(zhàn)與機遇。

圖1-2 LLM技術(shù)的發(fā)展歷程
神經(jīng)網(wǎng)絡(luò)語言模型
LLM技術(shù)的起源可以追溯到2013年,當時谷歌提出了一種基于RNN的語言模型,稱為神經(jīng)網(wǎng)絡(luò)語言模型(Neural Network Language Model,NNLM)。這種模型能夠利用上下文信息預(yù)測下一個詞出現(xiàn)的概率,相比于傳統(tǒng)的基于統(tǒng)計的語言模型,神經(jīng)網(wǎng)絡(luò)語言模型具有更好的泛化能力和更低的計算復(fù)雜度。然而,由于RNN存在梯度消失和梯度爆炸等問題,限制了模型的深度和規(guī)模。
長短期記憶網(wǎng)絡(luò)語言模型
2014年,谷歌又提出了一種基于長短期記憶網(wǎng)絡(luò)(LSTM)的語言模型,稱為長短期記憶網(wǎng)絡(luò)語言模型(LSTM-LM)。這種模型通過門控機制解決了 RNN 的梯度問題,并能夠捕捉更長時序的依賴關(guān)系。LSTM-LM 在多個語言建模任務(wù)上取得了顯著的性能提升,為后續(xù)的序列到序列模型(Seq2Seq)奠定了基礎(chǔ)。
Transformer模型
2017年,谷歌再次推出一種基于注意力機制(Attention)和自編碼器(AutoEncoder)的語言模型。這種模型摒棄了RNN和LSTM的循環(huán)結(jié)構(gòu),通過注意力機制直接建立輸入序列中任意兩個位置之間的聯(lián)系。Transformer在并行計算和長距離依賴方面具有明顯的優(yōu)勢,并在機器翻譯等任務(wù)上刷新了紀錄。具體來說,Transformer在WMT 2014數(shù)據(jù)集的英語-德語翻譯任務(wù)中將BLEU分數(shù)提高了2.8分。
BERT:預(yù)訓(xùn)練-微調(diào)框架
2018年,谷歌基于Transformer模型又提出了一種預(yù)訓(xùn)練-微調(diào)框架(Pre-training-Fine-tuning),稱為BERT(Bidirectional Encoder Representations from Transformers)。這種框架通過在大規(guī)模無標注文本上進行掩碼語言建模(Masked Language Modeling)和下一句預(yù)測(Next Sentence Prediction)兩種任務(wù)的預(yù)訓(xùn)練,得到一個通用的語言表示模型,然后根據(jù)不同的下游任務(wù)進行微調(diào),實現(xiàn)端到端的遷移學(xué)習(xí)。BERT在11個自然語言理解(Natural Language Understanding,NLU)任務(wù)上取得了突破性成果,例如在SQuAD v1.1問答任務(wù)上,BERT將精確度提升至93.2%,超過了人類的表現(xiàn)。這種成功促進了一系列基于Transformer模型和預(yù)訓(xùn)練-微調(diào)框架的LLM技術(shù)的研究。
GPT:生成式預(yù)訓(xùn)練變換器
2019年,OpenAI提出了一種基于Transformer模型和預(yù)訓(xùn)練-微調(diào)框架的生成式預(yù)訓(xùn)練模型,稱為GPT(Generative Pre-trained Transformer)。GPT 通過在大規(guī)模無標注文本上進行單向語言建模(Unidirectional Language Modeling)任務(wù)的預(yù)訓(xùn)練,可以生成具有連貫性和邏輯性的文本。隨后,OpenAI進一步推出了GPT-2和GPT-3,大幅提高了模型的規(guī)模和性能。具體來說,GPT-3擁有1750 億個參數(shù),是GPT-2規(guī)模的116倍,同時在多個任務(wù)上的性能也得到了顯著提升。這引發(fā)了業(yè)界對大規(guī)模預(yù)訓(xùn)練語言模型的廣泛關(guān)注和討論。
在語言模型技術(shù)的發(fā)展歷程中,一些重要的技術(shù)突破為大語言模型技術(shù)的進步鋪就了道路。首先,長短期記憶網(wǎng)絡(luò)的出現(xiàn),解決了循環(huán)神經(jīng)網(wǎng)絡(luò)中的梯度消失和梯度爆炸問題,使模型能夠捕捉更長期的時序依賴關(guān)系,為后續(xù)的序列到序列模型奠定了基礎(chǔ)。其次,自注意力機制的引入,使得模型能夠更為靈活地處理輸入到序列中的長距離依賴關(guān)系,從而顯著提高了模型在機器翻譯等任務(wù)上的性能。最后,預(yù)訓(xùn)練-微調(diào)框架的運用,將大規(guī)模無監(jiān)督預(yù)訓(xùn)練和有監(jiān)督微調(diào)相結(jié)合,實現(xiàn)了從通用語言知識到特定任務(wù)的遷移學(xué)習(xí),使模型可以更好地適應(yīng)各種自然語言處理任務(wù)。
大語言模型技術(shù)的規(guī)模從最初的神經(jīng)網(wǎng)絡(luò)語言模型的幾百萬個參數(shù)到GPT-3的1750億個參數(shù),經(jīng)歷了翻天覆地的變化。這種規(guī)模的增長使模型具有更強大的表現(xiàn)力,可以掌握更豐富的語言知識。同時,隨著訓(xùn)練數(shù)據(jù)量的不斷增加,模型對海量文本中的語言規(guī)律和知識的學(xué)習(xí)也變得更加深入。然而,隨著模型規(guī)模的增大,計算資源和能源消耗也在不斷增加,這給模型的普及和應(yīng)用帶來了挑戰(zhàn)。
展望未來,大語言模型技術(shù)面臨著許多挑戰(zhàn)和機遇。例如,如何在保持模型性能的同時,降低模型規(guī)模和計算復(fù)雜度就是一個重要的課題。首先,可以通過模型壓縮、知識蒸餾等技術(shù),降低模型的計算需求,使其更適合部署在資源受限的設(shè)備上。其次,在模型的可解釋性和安全性方面,需要進一步研究如何讓模型的預(yù)測過程更加透明,避免出現(xiàn)意料之外的輸出,提高用戶對模型的信任。此外,隨著模型規(guī)模的不斷擴大,如何有效利用模型的生成能力,推動更多領(lǐng)域的應(yīng)用創(chuàng)新,也是值得探索的方向。
1.2.2 淺談智能涌現(xiàn)
涌現(xiàn)能力(Emergent Ability)是指一個系統(tǒng)在達到一定的復(fù)雜度和規(guī)模時出現(xiàn)的未預(yù)料到的新行為或新能力,表現(xiàn)為邏輯認知、世界觀、思維鏈形成和多模態(tài)綜合能力等。在大語言模型領(lǐng)域,涌現(xiàn)能力指的是,當模型規(guī)模達到某個閾值(大模型奇點)之前,增加參數(shù)數(shù)量帶來的性能提升相對較小,效果基本上等同于隨機,而在超過該閾值后,增加參數(shù)數(shù)量則會帶來顯著的改善。然而一旦突破大模型奇點之后,增加參數(shù)數(shù)量或者預(yù)訓(xùn)練語料帶來的性能提升是有限的,更多需要的是高質(zhì)量和多樣化的指令數(shù)據(jù)來激發(fā)它的泛化性。在沒有專門訓(xùn)練過的情況下,大語言模型也可以泛化到新的、未知的多模態(tài)數(shù)據(jù)樣本上,這樣就可以從原始數(shù)據(jù)中發(fā)現(xiàn)未知的新型特征和模式。圖1-3展示了論文“Emergent Abilities of Large Language Models”中5個語言模型的8種涌現(xiàn)能力,從中可以非常直觀地感受到涌現(xiàn)現(xiàn)象。

圖1-3 測試5個語言模型的8種涌現(xiàn)能力[1]
[1] 圖中的橫軸對應(yīng)的單位是每秒浮點運算次數(shù)(Floating Point Operations Per Second,F(xiàn)LOPS)。
圖1-3子圖(A)~(D)來自基準BIG-Bench中的4個涌現(xiàn)少樣本提示(Few-shot prompting)任務(wù),該基準包含了200多個評估語言模型的基準套件。圖1-3子圖(A)是一個算術(shù)基準測試,用于測試3位加減法和2位乘法。當訓(xùn)練量較小時,GPT-3和LaMDA的準確率接近0,而在訓(xùn)練量達到2×1022 FLOPS后,GPT-3的效果突然超越隨機,而LaMDA的閾值則為1023 FLOPS。對其他任務(wù)來說,類似的涌現(xiàn)能力也出現(xiàn)在訓(xùn)練量達到類似規(guī)模時,這些任務(wù)包括國際音標翻譯、單詞恢復(fù),以及波斯語問答。圖1-3子圖(E)展示了誠實度問答基準上的少樣本提示的涌現(xiàn)能力,該基準用來衡量誠實回答問題的能力。因為該基準是通過對抗的方式針對GPT-3構(gòu)建的,所以即使將GPT-3放大到最大的規(guī)模,其效果也不會高于隨機。小規(guī)模Gopher模型的效果也接近隨機,但是當模型規(guī)模放大至5×1023 FLOPS,其效果會突然高于隨機約20%。圖1-3子圖(F)展示了概念映射任務(wù),在該任務(wù)中,語言模型必須學(xué)會映射一個概念領(lǐng)域,例如理解文本中關(guān)于方向的表示。同樣,使用大的GPT-3模型,效果才能高于隨機。圖1-3子圖(G)展示了多學(xué)科測試,覆蓋主題包含數(shù)學(xué)、歷史、法律等。對于模型GPT-3、Gopher和Chinchilla而言,當訓(xùn)練計算量小于1022 FLOPS時,在所有的主題上的效果都趨于隨機,但是當訓(xùn)練計算量達到3×1023~5×1023 FLOPS后,效果將遠遠高于隨機。最后,圖 1-3 子圖(H)展示了語義理解基準,顯然,GPT-3 和 Chinchilla 即使放大至最大的規(guī)模5×1023 FLOPS,也不能通過單樣本(one shot)實現(xiàn)比隨機更好的效果。到目前為止的結(jié)果表明,單純地放大模型并不能解決基準,但是當PaLM被放大至2.5×1024 FLOPS(540B)時,優(yōu)于隨機的效果就出現(xiàn)了。
接下來,我們簡單地從技術(shù)角度和數(shù)據(jù)角度對涌現(xiàn)能力進行分析。涌現(xiàn)能力是 AI 模型處理復(fù)雜任務(wù)的重要指標,它揭示了模型在解決需要大量主題集合和基于知識的問題上的潛力。這種能力的出現(xiàn)與模型的技術(shù)架構(gòu)和數(shù)據(jù)質(zhì)量密切相關(guān)。深度學(xué)習(xí)作為一種強大的表示學(xué)習(xí)方法,其優(yōu)勢在于能夠提取數(shù)據(jù)中的層次結(jié)構(gòu)特征。多層神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)從基礎(chǔ)到高級的抽象表示,展現(xiàn)涌現(xiàn)能力。例如,在自然語言處理任務(wù)中,神經(jīng)網(wǎng)絡(luò)可以從字符、句法和語義級別學(xué)習(xí)有效的特征表示。模型的規(guī)模(或者說參數(shù)數(shù)量)是影響涌現(xiàn)能力的關(guān)鍵因素。只有當模型規(guī)模達到閾值時,模型才能展現(xiàn)對復(fù)雜任務(wù)的處理能力。然而,參數(shù)數(shù)量的增加也可能導(dǎo)致過擬合和計算成本提高,因此需要平衡模型的規(guī)模和性能。此外,訓(xùn)練方法和優(yōu)化算法的改進也能提高模型的泛化能力和學(xué)習(xí)效率,進而促進涌現(xiàn)能力的出現(xiàn)。數(shù)據(jù)量和質(zhì)量同樣是決定涌現(xiàn)能力的關(guān)鍵因素。大量的高質(zhì)量數(shù)據(jù)可以提供豐富的樣本和多樣性,使模型能夠?qū)W到更多的知識和規(guī)律。然而,數(shù)據(jù)量的增加也會增加模型的訓(xùn)練成本和存儲需求。因此,除了追求數(shù)據(jù)量的增加,也需要關(guān)注數(shù)據(jù)質(zhì)量和多樣性,以提高模型的泛化能力和涌現(xiàn)能力。
總而言之,涌現(xiàn)能力的表現(xiàn)是模型架構(gòu)、參數(shù)規(guī)模、訓(xùn)練方法、數(shù)據(jù)量和質(zhì)量等多個因素共同作用的結(jié)果。在實際應(yīng)用中,需要綜合考慮這些因素,以提高模型的涌現(xiàn)能力,從而更好地解決復(fù)雜任務(wù)。
- 機器人制作從入門到精通(第3版)
- 人人都離不開的算法:圖解算法應(yīng)用
- 新一代人工智能:無代碼人工智能開發(fā)平臺實踐
- 智能浪潮:增強時代來臨
- 深度學(xué)習(xí)詳解:基于李宏毅老師“機器學(xué)習(xí)”課程
- Python金融大數(shù)據(jù)風(fēng)控建模實戰(zhàn):基于機器學(xué)習(xí)
- PyTorch深度學(xué)習(xí)應(yīng)用實戰(zhàn)
- 自然語言處理導(dǎo)論
- OpenCV4.5計算機視覺開發(fā)實戰(zhàn):基于Python
- 機器學(xué)習(xí)與數(shù)據(jù)科學(xué)(基于R的統(tǒng)計學(xué)習(xí)方法)
- RPA智能機器人:實施方法和行業(yè)解決方案
- 搜索:開啟智能時代的新引擎
- 增強型分析:人工智能技術(shù)驅(qū)動的數(shù)據(jù)分析、業(yè)務(wù)決策與案例實踐
- 人工智能:理論基礎(chǔ)+商業(yè)落地+實戰(zhàn)場景+案例分析
- 人工智能數(shù)學(xué)基礎(chǔ)與Python機器學(xué)習(xí)實戰(zhàn)