logologo
logo
热门活动
HOT
产品
解决方案
客户价值
文档
支持与帮助
售前咨询
快手万擎(Vanchin)
开始使用
产品介绍
模型介绍
模型服务
模型定制
模型研发
模型托管
模型评测
数据管理
系统管理
产品计费
API说明
常见问题
相关协议
文档中心
模型服务模型托管模型部署

模型部署


一、概念

模型托管是为降低算力门槛与成本而设计的部署服务。支持将预置、开源或自主微调模型一键部署为专属推理服务,通过预付费、后付费灵活计费,并配合弹性伸缩与高可用能力,快速将模型能力转化为稳定可靠的在线API服务,让用户省去底层资源运维的烦恼。当前平台主要提供【在线部署】能力。

在线部署:无需编写脚本或配置环境,一键将模型部署为可调用API服务,提供专属资源隔离、弹性伸缩与高可用保障,分钟级模型上线


二、场景示例

  • 场景1 :

万擎预置模型部署:用万擎提供的开源模型进行线上微调  → 部署  → 创建推理点 → API调用

    • 背景:某互联网公司的推荐业务需要长期高频调用大语言模型进行实时内容生成,日均请求量达百万级。此前使用某公有模型API,每月费用高昂且受限于API的并发上限,业务高峰期经常出现限流,影响用户体验。
    • 目标:基于平台将预置的开源模型,独立部署为专属推理服务,通过按量付费或包年包月方式控制成本,并利用弹性伸缩能力应对业务波峰。

Step 1:选择开源模型部署为模型服务

操作「模型部署」 → 「新建模型部署」 → 「添加模型」选择目标开源模型 →  选择资源规格与计费方式(按量/包年包月) →  提交

Step 2:部署成功后创建推理点

操作「新建推理点」 → 「设置名称描述等信息」 →  提交

Step 3:API 调用推理点

操作「推理点详情」 → 「API调用」Tab  →  选择已有API Key 或新建一个API Key → 复制示例代码测试调用→ 查看监控 → 查看用量


  • 场景2 :

自主微调后部署:用户自主微调模型上传到平台 → 部署 → 创建推理点 → API调用。

    • 背景:某电商公司需要对商品评论进行情感分析,基于平台预置的开源模型,使用内部标注的评论数据在平台内进行微调,以获得适配电商场景的情感分类模型。
    • 目标:在平台内完成模型微调,将微调后产生的模型直接部署为API服务,并创建推理点供业务系统调用。

Step 1:在平台内微调模型

操作: 点击「新建模型精调」→ SFT--LoRA- → 选择预置开源模型→ 上传训练数据并选择→ 配置微调参数(学习率、训练轮数等)→ 提交微调任务 → 等待任务完成,平台自动生成微调后的模型

提交微调任务

数据集上传

Step 2:部署微调后的模型

操作:「模型仓库」→ 找到微调生成的模型版本 → 点击「部署」→ 选择资源规格与计费方式 → 提交

Step 3:创建推理点

操作:「模型部署详情」→「新建推理点」→ 设置名称、描述等信息→ 提交

【同场景一】

Step 4:API调用推理点

操作:「推理点详情」→「API调用」Tab → 选择已有API Key或新建 → 复制示例代码测试调用 → 查看监控 → 查看用量

【同场景一】


  • 场景3 :

开源模型部署:用户将开源社区模型上传到平台  →  部署 →  创建推理点  →  API调用。

    • 背景:某法律科技公司基于开源基座模型,使用内部法律文书数据进行了全参数微调,得到一个专业的法律问答模型。模型文件(含配置、权重)约30GB,需要部署为内部系统可调用的API服务,并支持多部门调用和流量控制。
    • 目标:将自主微调后的模型上传至平台,部署为专属推理服务,并通过推理点实现部门级限流与调用管理。

Step 1:将模型以非公开方式上传到ModelScope 或 HuggingFace

可参考对应平台帮助文档:ModelScopeHuggingFace

Step 2:上传微调后的模型到平台

操作:「模型仓库」→「上传模型」→ 填写刚上传的模型地址、访问令牌 → 设置对应的模型类型、保存方式等信息 → 提交

Step 3:部署模型为服务

操作:「模型仓库」→ 找到刚上传的模型 → 点击「部署」→ 选择资源规格与计费方式(按量/包年包月)→ 提交

【同场景一】

Step 4:创建推理点

操作:「模型部署详情」→「新建推理点」→ 设置名称、描述、限流策略(RPM/TPM)→ 提交

【同场景一】

Step 5:API调用推理点

操作:「推理点详情」→「API调用」Tab → 选择已有API Key或新建 → 复制示例代码测试调用→ 查看监控 → 查看用量

【同场景一】


三、操作说明

3.1 新建模型部署

在左侧导航栏模型定制板块,选择「模型部署」,点击「+模型部署」进入新建信息填写页面:

  1. 填写名称、描述等基本信息;
  2. 选择模型:用户可选择模型广场预置模型或用户已部署成功的模型;
  3. 选择付费方式:当前平台支持「按模型单元后付费」和「按模型单元预付费」两种计费方式,若想了解二者区别,您可前往模型计费说明查看模型单元计费详情;
  4. 选择地域、副本数、模型单元,设置多地域、多副本可提高服务可用性及性能;
  5. 若您选择预付费模式,可配置购买时长(1-12个月)、是否自动续订(平台支持自动续订 1-6 个月);
  6. 信息填写完成后,根据用户所选模型、副本、计费类型计算费用:
  • 若用户选择「按模型单元后付费」,将展示每小时预估价格,例如:¥10/小时;
  • 若用户选择「按模型单元预付费」,将展示具体费用,例如:¥100。

3.2 查看部署任务

在左侧导航栏模型定制板块,选择「模型部署」,若当前项目下有模型部署任务,将展示部署任务列表,用户可查看各个任务的名称、状态、模型名称、副本数、任务描述等。

模型部署任务状态

  • 排队中:Pending,正在等待资源调度;
  • 创建中:Creating,新的模型服务部署中;
  • 运行中:Available,模型服务创建或者更新完成,此为模型服务部署成功的正常状态;
  • 变更中:Updating,存量模型服务配置滚动更新中;
  • 部分异常:Degraded,部分实例没有 Running,点击提示可查看异常信息及处理引导;
  • 异常:Unavailable,整体完全无法正常对外提供服务;
  • 已下线:Terminating,模型服务已下线,此时可以执行删除,或者重新扩容上线。

3.3 模型单元

万擎将算力从一种复杂、不稳定、难以管理的基础设施,打包为一种简单、可靠、可按需采购的标准化商品(模型单元),提供独占、隔离的专属算力,为用户AI应用建设提供成本、性能、稳定性以及规模化落地的全面保障。

优势

  • 专属算力:平台为模型单元配备独占的算力资源,确保您的服务延迟更低、并发更高,且性能不受其他用户业务波动影响,稳定性显著提升。
  • 极简运维:平台承担全部底层基础设施(如服务器、网络、存储)的复杂运维工作。您只需关注业务逻辑与模型效果,从繁琐的资源管理工作中彻底解放。
  • 优化成本:对于持续稳定的推理业务(尤其是利用率较高的规模化业务),采用模型单元能获得比按Token计费更显著的成本效益。
  • 丰富模型:支持部署平台预置模型、微调后模型,以及您自行上传的模型,为您提供丰富的模型生态。
  • 弹性伸缩:后付费模式的服务单元支持配置弹性伸缩策略,您可以根据使用情况进行扩缩容操作,调整实例数量。
  • 无硬性限流:平台不设置统一的RPM/TPM上限。您的服务流量上限取决于所部署模型单元的实际承载力,让业务增长不受固定配额限制。

适用场景

  • 需要部署自定义模型(包括微调后模型、用户上传模型)进行大规模、持续性的推理服务。
  • 对服务的SLA(服务质量协议)有严格要求的生产环境,追求高并发、低延迟与可控的总体成本。
  • 业务流量持续且稳定,能够充分利用预留资源,以实现最佳性价比。

场景建议:对于流量极低或间歇性、偶发性的推理需求,由于需要承载一个模型服务单元的起步资源,其成本优势可能不显著。

支持模型

具体模型以控制台实际为准:

模型单元

A型模型单元

B型模型单元

C型模型单元

D型模型单元

L型模型单元

M型模型单元

适用模型

Qwen3-8B

...

Qwen2.5-8B

Qwen2.5-14B

...


Qwen2.5-32B

Qwen3-32B

...

DeepSeek-r1

DeepSeek-v3

Qwen3-235B-A22B-Thinking-2507

...

Qwen3-4B

...

Qwen3-8B

...

注意:推荐用户通过模型压测方式选择所需模型单元类型及数量。
上一篇:开发机 ms-swift 框架使用教程下一篇:模型仓库
该篇文档内容是否对您有帮助?
有帮助没帮助