官术网_书友最值得收藏!

1.2.2 技術特點

數據、模型、算力是AI的三大核心要素,ChatGPT充分體現了這3方面的特點。

(1)數據。海量數據相當于AI的教材。根據OpenAI 2020年發布的論文,ChatGPT的訓練使用了4990億個token的數據。這些訓練語料的約60%來自于過濾后的Common Crawl,22%來自于WebText2,16%來自于Books1和Books2,3%來自于Wikipedia。

(2)模型。使用億級的語料或者圖像等數據集進行知識抽取、學習,進而產生億級參數模型。GPT-3使用的模型參數高達1750億,使用了深度神經網絡、自監督學習、強化學習和提示學習等人工智能模型。OpenAI在GPT-3模型基礎上使用RLHF(Reinforcement Learning from Human Feedback,基于人類反饋的強化學習)技術對ChatGPT進行了訓練,且加入了更多人工監督進行微調。ChatGPT能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,像人類一樣聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼等任務。

(3)算力。訓練和運行模型需要強大的算力支撐。據OpenAI團隊發表于2020年的論文Language Models are Few-Shot Learners,訓練一次1750億參數的GPT-3模型需要的算力約為3640 PFlop/s-day,即假如每秒計算一千萬億次,也需要計算3640天。

主站蜘蛛池模板: 蒙城县| 陆丰市| 永昌县| 昭觉县| 徐水县| 遂溪县| 噶尔县| 梧州市| 通道| 永登县| 那曲县| 弋阳县| 北票市| 台山市| 太白县| 商都县| 陆丰市| 名山县| 宁德市| 罗山县| 石渠县| 崇信县| 乌鲁木齐县| 新平| 庄河市| 汨罗市| 大悟县| 定远县| 舟山市| 吴江市| 华蓥市| 金坛市| 辽阳县| 阿合奇县| 宁明县| 霍州市| 水城县| 平南县| 西畴县| 涿鹿县| 资溪县|