logologo
logo
热门活动
HOT
产品
解决方案
客户价值
文档
支持与帮助
售前咨询
快手万擎(Vanchin)
开始使用
产品介绍
模型介绍
模型服务
模型定制
模型研发
模型托管
模型评测
数据管理
系统管理
产品计费
API说明
常见问题
相关协议
文档中心
模型服务模型定制模型蒸馏

模型蒸馏


一、什么是模型蒸馏

模型蒸馏(Model Distillation):是一种知识迁移技术,核心思路是利用大模型(教师模型)的能力生成高质量训练数据,再用这些数据训练小模型(学生模型)。经过蒸馏的小模型能够在特定任务上接近大模型的效果,同时具备推理速度快、部署成本低的优势。

数据蒸馏 vs 知识蒸馏

方式

原理

万擎支持情况

数据蒸馏

用教师模型推理生成高质量训练数据,再用这些数据训练学生模型

当前支持

知识蒸馏

在训练过程中,学生模型直接学习教师模型的内部知识表示

暂不支持


二、典型应用场景

  • 场景 1:高成本推理优化
    • 痛点:使用顶级大模型效果优秀但推理成本过高
    • 方案:将大模型蒸馏到 Qwen3-8B 等小模型
    • 效果:推理成本可大幅降低,业务效果保持在较高水平


  • 场景 2:低延迟场景
    • 痛点:实时翻译、语音交互等场景需要快速响应,大模型延迟过高
    • 方案:蒸馏到轻量模型(如 Qwen3-4B 或 Qwen3-1.7B)
    • 效果:响应延迟可显著降低


  • 场景 3:领域知识迁移(待支持)
  • 痛点:希望小模型也具备大模型的医疗/法律/金融专业能力
  • 方案:用领域数据驱动大模型生成专业回答,蒸馏到小模型
  • 效果:小模型在特定领域的专业能力可大幅提升


三、核心能力

数据蒸馏流程

教师模型(大模型)推理生成高质量数据 → 自动构建训练数据集 → 训练学生模型(小模型)

支持教师模型

教师模型

特点

DeepSeek R1

推理能力强,适合逻辑推理、数学、代码场景

DeepSeek V3

综合能力强,通用场景表现优秀

DeepSeek-V3.2

V3 升级版,能力进一步提升

支持学生模型

学生模型

适用场景

Qwen3-0.6B

极致轻量,边缘设备、嵌入式场景

Qwen3-1.7B

轻量部署,简单任务

Qwen3-4B

性价比较优,中等复杂任务

Qwen3-8B

推荐首选,兼顾效果和成本

Qwen3-14B

追求更高效果,适合复杂任务

训练方法

与 SFT 相同,支持:

  • 全量更新:更新所有参数,效果上限更高
  • LoRA:仅更新部分参数,训练更快、成本更低

(数据)校验方式

  • 自动校验:平台自动评估蒸馏数据质量和训练效果
  • 手动校验:用户可手动审核蒸馏生成的数据质量


四、蒸馏后模型的延伸能力

蒸馏产出的模型支持进一步操作:

  • 部署:直接创建推理接入点上线使用
  • 微调:通过 SFT/DPO 进一步优化
  • 量化:进一步压缩体积、降低成本

【⚠️注意:蒸馏 → 微调 → 量化的三步组合,可实现接近大模型效果、小模型成本的优化方案。】


五、场景示例

背景:某金融科技企业使用 DeepSeek R1(671B 参数)进行风控规则推理和金融报告生成,效果优秀但推理成本较高,响应延迟影响用户体验。

目标:在保持较高业务效果的前提下,大幅降低推理成本并缩短响应延迟。

Step 1:选择教师模型

选择 DeepSeek R1 作为教师模型——该模型已在企业业务中验证效果。

Step 2:准备数据集

准备用于蒸馏的数据集(即需要教师模型处理的问题集合):

  • 可使用企业积累的真实业务问题
  • 也可使用平台已有数据集
  • 建议准备 1000-5000 条覆盖典型业务场景的问题

Step 3:教师模型推理生成蒸馏数据

平台自动将数据集发送给教师模型,教师模型针对每个问题生成高质量回答,形成蒸馏训练数据集。

Step 4:选择学生模型

选择 Qwen3-8B 作为学生模型——参数量仅为教师模型的约 1/80,推理成本极低。

Step 5:训练学生模型

使用蒸馏数据集训练学生模型:

  • 选择训练方法(推荐 LoRA 用于快速验证)
  • 配置训练参数
  • 平台支持自动校验或手动校验效果

Step 6:部署轻量模型

将训练完成的学生模型部署上线,替换原有的大模型。

预期效果:推理成本可大幅降低,响应延迟显著缩短。在蒸馏聚焦的特定任务上,小模型可保持较高的业务效果。具体数据视模型选择、数据质量和业务场景而定。蒸馏后还可进一步通过 SFT 微调和量化持续优化。


六、操作说明

6.1 新建任务操作说明

前置准备

  1. 权限申请:
  • 主账号(即溪流湖账户)拥有账号下所有项目的访问/管理权限,无需权限申请,主账号可对所有蒸馏任务进行修改、删除;
  • 子账号:可由主账号为名下子账号设置某项目的只读/管理权限,子账号不支持删除主账号新建的蒸馏任务;
  1. 若账户余额不足,请先充值
  2. 确认权限及余额无问题后,在左侧导航栏中「模型定制」下方点击「模型蒸馏」进入产品页面,点击「+新建蒸馏任务」进入创建页面,在创建页面填写相关参数,具体参数如下:

基础信息

  1. 名称及描述:用户可自定义蒸馏任务名称及描述;
  2. 任务类型:当前仅支持文本生成类,默认选中。

构建数据

  1. 蒸馏方式:当前仅支持数据蒸馏,默认选中;
  2. 选择教师模型:用户可从平台提供的预置模型中进行选择,支持蒸馏的模型列表可在下方查看;
  3. 选择数据集:支持选择预置数据集或自定义数据集;
  4. 选择训练数据校验方式:用户可选择自动校验或手动校验,默认选中自动校验;
  • 自动校验:教师模型推理完成后自动校验蒸馏数据构建结果,若通过校验自动进入训练流程;
  • 手动校验:教师模型推理完成后后人工查看数据集进行校验,需手动点击开始训练,进入训练流程。蒸馏数据构建完成后,在蒸馏任务列表中,任务状态会变为待训练,用户确认数据质量符合预期后,单击开始训练继续执行学生模型训练。

训练学生模型

  1. 选择学生模型:用户可从平台提供的预置模型中进行选择,支持蒸馏的模型列表可在下方查看;
  2. 选择训练方法:用户可选择全量更新或LoRA,默认选中全量更新;
  • 全量更新:指在预训练模型的基础上,对其全部可训练参数进行重新训练,使模型整体适配新的任务或数据分布;
  • LoRA:一种参数高效微调方法,在固定预训练大模型本身参数的基础上,保留自注意力模块中原始权重矩阵,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。
  1. 参数配置:选择的基础模型不同、训练方法不同,对应的超参数及参数值不同,具体参数见下方表格;
  2. 选择验证集:可从当前选择的数据集中随机拆分作为验证集,或选择指定数据集作为验证集,默认从当前训练集中随机拆分5%作为验证集。

模型发布

  1. 选择发布方式
  • 发布为新模型:此次训练的模型发布后使用新的模型名称;
  • 已有模型新版本:同系列模型仅更新版本,不更新模型名称。

计量计费

  1. 计量计费:蒸馏配置选择完毕后,页面右上方将展示计费详情。计费规则详情请查看:模型计费说明

支持模型列表

模型类别

模型名称

教师模型

DeepSeek R1

DeepSeek V3

DeepSeek-V3.2

Qwen3-235B-A22B-Thinking

学生模型

Qwen3-0.6B

Qwen3-1.7B

Qwen3-4B

Qwen3-8B

Qwen3-14B

参数配置列表

超参数

参数说明

学习率

控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。

训练轮次

控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。

单卡训练批大小

每张GPU上的训练批大小(batch size per GPU)。

单卡评估批大小

每张GPU上的评估批大小。

梯度累积步数

指模型在更新一次参数前,连续累积多少个小批次(batch)的梯度,从而在不增加显存占用的情况下,实现更大的等效 batch size。全局有效批大小 = 每张GPU的batch size × GPU数量 × 梯度累积步数

评估间隔比例

按总训练步数的比例进行评估(0~1)。大于0时优先生效,例如0.1表示每10%训练进度评估一次。

保存间隔比例

按总训练步数比例保存模型(0~1)。大于0时优先生效。

最大Checkpoint数量

最多保留的模型checkpoint数量,超过后自动删除最旧文件。

学习率预热比例

学习率预热步数占总训练步数的比例(0~1)。学习率预热可以提高模型稳定性和收敛速度。

输入最大长度

输入token最大长度,超过将被截断。通常应小于等于模型的最大context长度,超过该长度的数据在训练将被自动截断。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。

LoRA秩(Rank)

LoRA低秩矩阵的秩(r)。值越大表示可训练参数越多,表达能力更强,但显存和计算开销增加。选择全量训练时该参数无效。

LoRA缩放系数

LoRA缩放因子(alpha),实际缩放比例为 alpha / rank。通常设为 rank 的1~4倍。选择全量训练时该参数无效。

6.2 查看蒸馏任务

当项目下存在蒸馏任务时,用户可在模型蒸馏页面查看该项目下的所有蒸馏任务信息,点击某个任务名称将进入该任务详情,可查看任务的详情信息、效果指标、任务日志。

蒸馏后的模型支持部署、精调、量化。

任务列表

用户可查看蒸馏任务的状态及关联的批量推理任务等信息,状态说明如下:

状态

说明

准备中

仅离线数据存在该状态,当前教师模型尚未完成推理

待训练

仅手动校验存在该状态,蒸馏数据构建完成后需人工确认开启训练

排队中

等待训练资源

运行中

训练进行中,用户可查看任务剩余时间

已完成

训练成功,用户可查看学生模型

已失败

训练失败,平台将为用户展示具体的失败原因

已终止

用户手动终止

任务详情

任务详情页面展示该蒸馏任务的详细配置信息:

效果指标

【⚠️仅在任务开始训练后支持查看效果指标】

用户可通过平台提供的TensorBoard查看验证集和训练集的指标情况,包括loss(损失函数)、learning rate(学习率)、grad norm(梯度范数)等。

训练日志

【⚠️若任务暂未开始 ,将无法查看训练日志】

在任务日志页面,您可查看该蒸馏任务的日志详情,包括数据集处理、模型准备、训练任务执行过程等:


上一篇:模型精调下一篇:模型量化
该篇文档内容是否对您有帮助?
有帮助没帮助