1.1.2 P表示預訓練
預訓練其實也很好理解,就是前面AI“學習”到的w1, w2, w3, …, wn和b,也就是總結一般規律的過程。
訓練集就是用戶收集并輸入AI的大量數據,在這個過程中,數據的數量和質量同等重要。數量不夠,AI便無法得出正確的參數值;質量不夠,AI得到的參數值生成的內容可能和用戶要求相差甚遠。
GPT模型并不算一個很新的概念,而GPT-3.5/GPT-4o mini模型和GPT-4效果的突飛猛進離不開OpenAI在數據集上的投入。
首先,準備數據。在訓練和微調GPT模型之前,需要收集大量的文本數據。這些數據可能有多種來源,如網頁、書籍、新聞文章等。數據的質量和多樣性對模型的表現至關重要。原始數據需要經過預處理,以消除噪聲并使其適用于訓練。預處理步驟可能包括去除特殊字符、分詞、停用詞等。這部分會決定最后的模型有多“通用”。
其次,使用一些數據集能夠提升模型生成效果的手段。
感興趣的讀者可以搜索前面的關鍵詞。
GPT本身訓練用到的數據集數量龐大,只有一小部分是人工標注的(圖1.1所示為常用的AI標注工具Labelbox),也是一種無標注訓練。除此之外,還有很多不同的手段來保證最終的訓練效果,GPT-4甚至混合了多種不同模型。
最后,根據各種評估方案,對結果進行評估,并根據評估內容進一步微調優化。
【打破誤區】很多人認為AI的數據集都是由人類提供的,所以AI無法產生優質的內容。例如,Diffusion模型生成的圖片不如頂級藝術家的作品就是大眾比較廣泛接受的觀念。這也是一個目前正確但不全面的觀念,其實我們可以參考AlphaGo,在AI產生的內容達到特定數量后,便會到達某種奇點,在此之后AI便可以用自己產生的數據來迭代訓練自己,而不會影響甚至提高最終生成的結果的質量。

圖1.1 常用的AI標注工具Labelbox
但值得注意的是,圍棋這個特定領域的規則是明確且固定的,在其他更復雜或涉及主觀審美的領域,AI用自己生成的數據訓練自己會遇到更多的問題,所以在很多人工智能已經有明顯優勢的領域,依然會有機構和科學家研究“程序化”的方法。例如,以數學方式生成自然世界逼真的3D場景程序生成器infinigen(項目特別標注了No AI),主要將生成的數據用于AI訓練,目前這種訓練集的質量比AI自己生成的訓練集好很多。