MindSpore大語(yǔ)言模型實(shí)戰(zhàn)
隨著ChatGPT等大語(yǔ)言模型的迅速發(fā)展,大語(yǔ)言模型已經(jīng)成為人工智能領(lǐng)域發(fā)展的快車道,不同領(lǐng)域涌現(xiàn)出各種強(qiáng)大的新模型。開發(fā)者想要獨(dú)立構(gòu)建、部署符合自身需求的大語(yǔ)言模型,需要理解大語(yǔ)言模型的實(shí)現(xiàn)框架和基本原理。本書梳理大語(yǔ)言模型的發(fā)展,首先介紹Transformer模型的基本原理、結(jié)構(gòu)和模塊及在NLP任務(wù)中的應(yīng)用;然后介紹由只編碼(Encoder-Only)到只解碼(Decoder-Only)的技術(shù)路線發(fā)展過程中對(duì)應(yīng)的BERT、GPT等大語(yǔ)言模型;接下來介紹大語(yǔ)言模型在部署、訓(xùn)練、調(diào)優(yōu)過程中涉及的各種關(guān)鍵技術(shù),如自動(dòng)并行、預(yù)訓(xùn)練與微調(diào)、RLHF等,并提供相應(yīng)的實(shí)踐指導(dǎo);最后以開源大語(yǔ)言模型BLOOM和LLaMA為樣例,介紹其架構(gòu)和實(shí)現(xiàn)過程,幫助讀者理解并構(gòu)建、部署自己的大語(yǔ)言模型。本書還提供了基于MindSpore框架的豐富樣例代碼。本書適合人工智能、智能科學(xué)與技術(shù)、計(jì)算機(jī)科學(xué)與技術(shù)、電子信息工程、自動(dòng)化等專業(yè)的本科生和研究生閱讀,同時(shí)也為從事大語(yǔ)言模型相關(guān)工作的軟件開發(fā)工程師和科研人員提供翔實(shí)的參考資料。
·6.6萬(wàn)字