- 成為GPT高手
- 梁成睿
- 854字
- 2025-06-03 14:19:48
1.1.2 P表示預(yù)訓(xùn)練
預(yù)訓(xùn)練其實(shí)也很好理解,就是前面AI“學(xué)習(xí)”到的w1, w2, w3, …, wn和b,也就是總結(jié)一般規(guī)律的過(guò)程。
訓(xùn)練集就是用戶收集并輸入AI的大量數(shù)據(jù),在這個(gè)過(guò)程中,數(shù)據(jù)的數(shù)量和質(zhì)量同等重要。數(shù)量不夠,AI便無(wú)法得出正確的參數(shù)值;質(zhì)量不夠,AI得到的參數(shù)值生成的內(nèi)容可能和用戶要求相差甚遠(yuǎn)。
GPT模型并不算一個(gè)很新的概念,而GPT-3.5/GPT-4o mini模型和GPT-4效果的突飛猛進(jìn)離不開(kāi)OpenAI在數(shù)據(jù)集上的投入。
首先,準(zhǔn)備數(shù)據(jù)。在訓(xùn)練和微調(diào)GPT模型之前,需要收集大量的文本數(shù)據(jù)。這些數(shù)據(jù)可能有多種來(lái)源,如網(wǎng)頁(yè)、書籍、新聞文章等。數(shù)據(jù)的質(zhì)量和多樣性對(duì)模型的表現(xiàn)至關(guān)重要。原始數(shù)據(jù)需要經(jīng)過(guò)預(yù)處理,以消除噪聲并使其適用于訓(xùn)練。預(yù)處理步驟可能包括去除特殊字符、分詞、停用詞等。這部分會(huì)決定最后的模型有多“通用”。
其次,使用一些數(shù)據(jù)集能夠提升模型生成效果的手段。
感興趣的讀者可以搜索前面的關(guān)鍵詞。
GPT本身訓(xùn)練用到的數(shù)據(jù)集數(shù)量龐大,只有一小部分是人工標(biāo)注的(圖1.1所示為常用的AI標(biāo)注工具Labelbox),也是一種無(wú)標(biāo)注訓(xùn)練。除此之外,還有很多不同的手段來(lái)保證最終的訓(xùn)練效果,GPT-4甚至混合了多種不同模型。
最后,根據(jù)各種評(píng)估方案,對(duì)結(jié)果進(jìn)行評(píng)估,并根據(jù)評(píng)估內(nèi)容進(jìn)一步微調(diào)優(yōu)化。
【打破誤區(qū)】很多人認(rèn)為AI的數(shù)據(jù)集都是由人類提供的,所以AI無(wú)法產(chǎn)生優(yōu)質(zhì)的內(nèi)容。例如,Diffusion模型生成的圖片不如頂級(jí)藝術(shù)家的作品就是大眾比較廣泛接受的觀念。這也是一個(gè)目前正確但不全面的觀念,其實(shí)我們可以參考AlphaGo,在AI產(chǎn)生的內(nèi)容達(dá)到特定數(shù)量后,便會(huì)到達(dá)某種奇點(diǎn),在此之后AI便可以用自己產(chǎn)生的數(shù)據(jù)來(lái)迭代訓(xùn)練自己,而不會(huì)影響甚至提高最終生成的結(jié)果的質(zhì)量。

圖1.1 常用的AI標(biāo)注工具Labelbox
但值得注意的是,圍棋這個(gè)特定領(lǐng)域的規(guī)則是明確且固定的,在其他更復(fù)雜或涉及主觀審美的領(lǐng)域,AI用自己生成的數(shù)據(jù)訓(xùn)練自己會(huì)遇到更多的問(wèn)題,所以在很多人工智能已經(jīng)有明顯優(yōu)勢(shì)的領(lǐng)域,依然會(huì)有機(jī)構(gòu)和科學(xué)家研究“程序化”的方法。例如,以數(shù)學(xué)方式生成自然世界逼真的3D場(chǎng)景程序生成器infinigen(項(xiàng)目特別標(biāo)注了No AI),主要將生成的數(shù)據(jù)用于AI訓(xùn)練,目前這種訓(xùn)練集的質(zhì)量比AI自己生成的訓(xùn)練集好很多。
- 智能優(yōu)化算法:基于生物行為模型的案例分析與設(shè)計(jì)
- 人工智能不會(huì)做什么:100億人類與100億機(jī)器人共存的未來(lái)
- 一本書讀懂ChatGPT、AIGC和元宇宙
- 共生:科技與社會(huì)驅(qū)動(dòng)的數(shù)字化未來(lái)
- 大模型實(shí)戰(zhàn):微調(diào)、優(yōu)化與私有化部署
- 區(qū)塊鏈技術(shù)及應(yīng)用
- 深度學(xué)習(xí)
- 深度學(xué)習(xí)時(shí)代的計(jì)算機(jī)視覺(jué)算法
- 樹莓派創(chuàng)客:手把手教你搭建機(jī)器人
- 這就是ChatGPT
- 如何創(chuàng)造可信的AI
- 智能工程
- 人工智能技術(shù)基礎(chǔ)
- AIGC高效寫作:如何發(fā)揮ChatGPT的無(wú)限創(chuàng)作力
- AI大模型企業(yè)落地指南