

模型蒸馏(Model Distillation):是一种知识迁移技术,核心思路是利用大模型(教师模型)的能力生成高质量训练数据,再用这些数据训练小模型(学生模型)。经过蒸馏的小模型能够在特定任务上接近大模型的效果,同时具备推理速度快、部署成本低的优势。
数据蒸馏 vs 知识蒸馏
方式 | 原理 | 万擎支持情况 |
数据蒸馏 | 用教师模型推理生成高质量训练数据,再用这些数据训练学生模型 | 当前支持 |
知识蒸馏 | 在训练过程中,学生模型直接学习教师模型的内部知识表示 | 暂不支持 |
数据蒸馏流程
教师模型(大模型)推理生成高质量数据 → 自动构建训练数据集 → 训练学生模型(小模型)
支持教师模型
教师模型 | 特点 |
DeepSeek R1 | 推理能力强,适合逻辑推理、数学、代码场景 |
DeepSeek V3 | 综合能力强,通用场景表现优秀 |
DeepSeek-V3.2 | V3 升级版,能力进一步提升 |
支持学生模型
学生模型 | 适用场景 |
Qwen3-0.6B | 极致轻量,边缘设备、嵌入式场景 |
Qwen3-1.7B | 轻量部署,简单任务 |
Qwen3-4B | 性价比较优,中等复杂任务 |
Qwen3-8B | 推荐首选,兼顾效果和成本 |
Qwen3-14B | 追求更高效果,适合复杂任务 |
训练方法
与 SFT 相同,支持:
(数据)校验方式
蒸馏产出的模型支持进一步操作:
【⚠️注意:蒸馏 → 微调 → 量化的三步组合,可实现接近大模型效果、小模型成本的优化方案。】
背景:某金融科技企业使用 DeepSeek R1(671B 参数)进行风控规则推理和金融报告生成,效果优秀但推理成本较高,响应延迟影响用户体验。
目标:在保持较高业务效果的前提下,大幅降低推理成本并缩短响应延迟。
Step 1:选择教师模型
选择 DeepSeek R1 作为教师模型——该模型已在企业业务中验证效果。
Step 2:准备数据集
准备用于蒸馏的数据集(即需要教师模型处理的问题集合):
Step 3:教师模型推理生成蒸馏数据
平台自动将数据集发送给教师模型,教师模型针对每个问题生成高质量回答,形成蒸馏训练数据集。
Step 4:选择学生模型
选择 Qwen3-8B 作为学生模型——参数量仅为教师模型的约 1/80,推理成本极低。
Step 5:训练学生模型
使用蒸馏数据集训练学生模型:
Step 6:部署轻量模型
将训练完成的学生模型部署上线,替换原有的大模型。
预期效果:推理成本可大幅降低,响应延迟显著缩短。在蒸馏聚焦的特定任务上,小模型可保持较高的业务效果。具体数据视模型选择、数据质量和业务场景而定。蒸馏后还可进一步通过 SFT 微调和量化持续优化。
前置准备
基础信息
构建数据
训练学生模型
模型发布
计量计费
支持模型列表
模型类别 | 模型名称 |
教师模型 | DeepSeek R1 |
DeepSeek V3 | |
DeepSeek-V3.2 | |
Qwen3-235B-A22B-Thinking | |
学生模型 | Qwen3-0.6B |
Qwen3-1.7B | |
Qwen3-4B | |
Qwen3-8B | |
Qwen3-14B |
参数配置列表
超参数 | 参数说明 |
学习率 | 控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
训练轮次 | 控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
单卡训练批大小 | 每张GPU上的训练批大小(batch size per GPU)。 |
单卡评估批大小 | 每张GPU上的评估批大小。 |
梯度累积步数 | 指模型在更新一次参数前,连续累积多少个小批次(batch)的梯度,从而在不增加显存占用的情况下,实现更大的等效 batch size。全局有效批大小 = 每张GPU的batch size × GPU数量 × 梯度累积步数 |
评估间隔比例 | 按总训练步数的比例进行评估(0~1)。大于0时优先生效,例如0.1表示每10%训练进度评估一次。 |
保存间隔比例 | 按总训练步数比例保存模型(0~1)。大于0时优先生效。 |
最大Checkpoint数量 | 最多保留的模型checkpoint数量,超过后自动删除最旧文件。 |
学习率预热比例 | 学习率预热步数占总训练步数的比例(0~1)。学习率预热可以提高模型稳定性和收敛速度。 |
输入最大长度 | 输入token最大长度,超过将被截断。通常应小于等于模型的最大context长度,超过该长度的数据在训练将被自动截断。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
LoRA秩(Rank) | LoRA低秩矩阵的秩(r)。值越大表示可训练参数越多,表达能力更强,但显存和计算开销增加。选择全量训练时该参数无效。 |
LoRA缩放系数 | LoRA缩放因子(alpha),实际缩放比例为 alpha / rank。通常设为 rank 的1~4倍。选择全量训练时该参数无效。 |
当项目下存在蒸馏任务时,用户可在模型蒸馏页面查看该项目下的所有蒸馏任务信息,点击某个任务名称将进入该任务详情,可查看任务的详情信息、效果指标、任务日志。
蒸馏后的模型支持部署、精调、量化。
任务列表
用户可查看蒸馏任务的状态及关联的批量推理任务等信息,状态说明如下:
状态 | 说明 |
准备中 | 仅离线数据存在该状态,当前教师模型尚未完成推理 |
待训练 | 仅手动校验存在该状态,蒸馏数据构建完成后需人工确认开启训练 |
排队中 | 等待训练资源 |
运行中 | 训练进行中,用户可查看任务剩余时间 |
已完成 | 训练成功,用户可查看学生模型 |
已失败 | 训练失败,平台将为用户展示具体的失败原因 |
已终止 | 用户手动终止 |
任务详情
任务详情页面展示该蒸馏任务的详细配置信息:
效果指标
【⚠️仅在任务开始训练后支持查看效果指标】
用户可通过平台提供的TensorBoard查看验证集和训练集的指标情况,包括loss(损失函数)、learning rate(学习率)、grad norm(梯度范数)等。
训练日志
【⚠️若任务暂未开始 ,将无法查看训练日志】
在任务日志页面,您可查看该蒸馏任务的日志详情,包括数据集处理、模型准备、训练任务执行过程等: