官术网_书友最值得收藏!

DeepSeek蒸餾模型

DeepSeek官方基于R1模型訓練了6款蒸餾版小模型。這些模型的訓練是采用了 R1 帶推理的輸出數據進行蒸餾,在其他開源模型(基座模型)基礎上進行的。表1-2列出了DeepSeek官方使用R1模型蒸餾的幾款小模型,其中名稱中的Destill代表“蒸餾”。

表1-2 DeepSeek官方使用R1模型蒸餾的幾款小模型

1 Qwen為通義系列開源AI大模型,Qwen 2.5即其2.5版本,分為多個不同參數量的子版本。

2 Llama是美國Meta公司推出的開源AI大模型系列。Llama-3.1即其3.1版本,分為多個不同參數量的子版本。

蒸餾版模型與原有模型相比,性能有明顯下降,但同時換取了可以在較低配置的 GPU 和計算機上部署的可能性。在本書的后續章節中將詳細說明如何在本地部署這些蒸餾版模型。

主站蜘蛛池模板: 聊城市| 平谷区| 盐边县| 扶沟县| 佳木斯市| 宝丰县| 沧州市| 肥乡县| 海原县| 泌阳县| 秦安县| 颍上县| 疏勒县| 六枝特区| 安泽县| 高密市| 琼结县| 五台县| 兴山县| 绵竹市| 营山县| 罗定市| 台北县| 临夏市| 环江| 洛宁县| 延吉市| 上饶县| 晋宁县| 营山县| 淮滨县| 新宁县| 台前县| 葫芦岛市| 元氏县| 行唐县| 玛曲县| 肥城市| 抚顺市| 肥乡县| 北海市|