

模型托管是为降低算力门槛与成本而设计的部署服务。支持将预置、开源或自主微调模型一键部署为专属推理服务,通过预付费、后付费灵活计费,并配合弹性伸缩与高可用能力,快速将模型能力转化为稳定可靠的在线API服务,让用户省去底层资源运维的烦恼。当前平台主要提供【在线部署】能力。
在线部署:无需编写脚本或配置环境,一键将模型部署为可调用API服务,提供专属资源隔离、弹性伸缩与高可用保障,分钟级模型上线
万擎预置模型部署:用万擎提供的开源模型进行线上微调 → 部署 → 创建推理点 → API调用
Step 1:选择开源模型部署为模型服务
操作「模型部署」 → 「新建模型部署」 → 「添加模型」选择目标开源模型 → 选择资源规格与计费方式(按量/包年包月) → 提交
Step 2:部署成功后创建推理点
操作「新建推理点」 → 「设置名称描述等信息」 → 提交
Step 3:API 调用推理点
操作「推理点详情」 → 「API调用」Tab → 选择已有API Key 或新建一个API Key → 复制示例代码测试调用→ 查看监控 → 查看用量
自主微调后部署:用户自主微调模型上传到平台 → 部署 → 创建推理点 → API调用。
Step 1:在平台内微调模型
操作: 点击「新建模型精调」→ SFT--LoRA- → 选择预置开源模型→ 上传训练数据并选择→ 配置微调参数(学习率、训练轮数等)→ 提交微调任务 → 等待任务完成,平台自动生成微调后的模型
提交微调任务
数据集上传
Step 2:部署微调后的模型
操作:「模型仓库」→ 找到微调生成的模型版本 → 点击「部署」→ 选择资源规格与计费方式 → 提交
Step 3:创建推理点
操作:「模型部署详情」→「新建推理点」→ 设置名称、描述等信息→ 提交
【同场景一】
Step 4:API调用推理点
操作:「推理点详情」→「API调用」Tab → 选择已有API Key或新建 → 复制示例代码测试调用 → 查看监控 → 查看用量
【同场景一】
开源模型部署:用户将开源社区模型上传到平台 → 部署 → 创建推理点 → API调用。
Step 1:将模型以非公开方式上传到ModelScope 或 HuggingFace
可参考对应平台帮助文档:ModelScope|HuggingFace
Step 2:上传微调后的模型到平台
操作:「模型仓库」→「上传模型」→ 填写刚上传的模型地址、访问令牌 → 设置对应的模型类型、保存方式等信息 → 提交
Step 3:部署模型为服务
操作:「模型仓库」→ 找到刚上传的模型 → 点击「部署」→ 选择资源规格与计费方式(按量/包年包月)→ 提交
【同场景一】
Step 4:创建推理点
操作:「模型部署详情」→「新建推理点」→ 设置名称、描述、限流策略(RPM/TPM)→ 提交
【同场景一】
Step 5:API调用推理点
操作:「推理点详情」→「API调用」Tab → 选择已有API Key或新建 → 复制示例代码测试调用→ 查看监控 → 查看用量
【同场景一】
在左侧导航栏模型定制板块,选择「模型部署」,点击「+模型部署」进入新建信息填写页面:
在左侧导航栏模型定制板块,选择「模型部署」,若当前项目下有模型部署任务,将展示部署任务列表,用户可查看各个任务的名称、状态、模型名称、副本数、任务描述等。
模型部署任务状态
万擎将算力从一种复杂、不稳定、难以管理的基础设施,打包为一种简单、可靠、可按需采购的标准化商品(模型单元),提供独占、隔离的专属算力,为用户AI应用建设提供成本、性能、稳定性以及规模化落地的全面保障。
场景建议:对于流量极低或间歇性、偶发性的推理需求,由于需要承载一个模型服务单元的起步资源,其成本优势可能不显著。
具体模型以控制台实际为准:
模型单元 | A型模型单元 | B型模型单元 | C型模型单元 | D型模型单元 | L型模型单元 | M型模型单元 |
适用模型 | Qwen3-8B ... | Qwen2.5-8B Qwen2.5-14B ... | Qwen2.5-32B Qwen3-32B ... | DeepSeek-r1 DeepSeek-v3 Qwen3-235B-A22B-Thinking-2507 ... | Qwen3-4B ... | Qwen3-8B ... |
注意:推荐用户通过模型压测方式选择所需模型单元类型及数量。