logologo
售前咨询
快手万擎(Vanchin)
开始使用
产品介绍
模型介绍
控制台介绍
模型定制
模型托管
模型评测
数据管理
产品计费
API说明
常见问题
相关协议
文档中心
控制台介绍模型托管模型部署

模型部署


在模型部署板块,用户可对当前项目下【模型仓库】中的模型进行私有化部署的全链路管理。

适用场景

什么情况下推荐使用私有模型部署?

  • 模型广场提供的模型无法满足用户功能需求,需要自行使用开源社区等其他渠道来源的大模型进行部署;
  • 对模型服务的性能、稳定性、隔离性等有较高需求;
  • 需要部署经过平台【模型微调】产出的大模型。

新建模型部署

在左侧导航栏模型定制板块,选择「模型部署」,点击「+模型部署」进入新建信息填写页面:

  1. 填写名称、描述等基本信息;
  2. 选择模型:用户可选择模型广场预置模型或用户已部署成功的模型;
  3. 选择付费方式:当前平台支持「按模型单元后付费」和「按模型单元预付费」两种计费方式,若想了解二者区别,您可前往模型计费说明查看模型单元计费详情;
  4. 选择地域、副本数、模型单元,设置多地域、多副本可提高服务可用性及性能;
  5. 若您选择预付费模式,可配置购买时长(1-12个月)、是否自动续订(平台支持自动续订 1-6 个月);
  6. 信息填写完成后,根据用户所选模型、副本、计费类型计算费用:
  • 若用户选择「按模型单元后付费」,将展示每小时预估价格,例如:¥10/小时;
  • 若用户选择「按模型单元预付费」,将展示具体费用,例如:¥100。

查看部署任务

在左侧导航栏模型定制板块,选择「模型部署」,若当前项目下有模型部署任务,将展示部署任务列表,用户可查看各个任务的名称、状态、模型名称、副本数、任务描述等。

模型部署任务状态

  • 排队中:Pending,正在等待资源调度;
  • 创建中:Creating,新的模型服务部署中;
  • 运行中:Available,模型服务创建或者更新完成,此为模型服务部署成功的正常状态;
  • 变更中:Updating,存量模型服务配置滚动更新中;
  • 部分异常:Degraded,部分实例没有 Running,点击提示可查看异常信息及处理引导;
  • 异常:Unavailable,整体完全无法正常对外提供服务;
  • 已下线:Terminating,模型服务已下线,此时可以执行删除,或者重新扩容上线。


模型单元

万擎将算力从一种复杂、不稳定、难以管理的基础设施,打包为一种简单、可靠、可按需采购的标准化商品(模型单元),提供独占、隔离的专属算力,为用户AI应用建设提供成本、性能、稳定性以及规模化落地的全面保障。

优势

  • 专属算力:平台为模型单元配备独占的算力资源,确保您的服务延迟更低、并发更高,且性能不受其他用户业务波动影响,稳定性显著提升。
  • 极简运维:平台承担全部底层基础设施(如服务器、网络、存储)的复杂运维工作。您只需关注业务逻辑与模型效果,从繁琐的资源管理工作中彻底解放。
  • 优化成本:对于持续稳定的推理业务(尤其是利用率较高的规模化业务),采用模型单元能获得比按Token计费更显著的成本效益。
  • 丰富模型:支持部署平台预置模型、微调后模型,以及您自行上传的模型,为您提供丰富的模型生态。
  • 弹性伸缩:后付费模式的服务单元支持配置弹性伸缩策略,您可以根据使用情况进行扩缩容操作,调整实例数量。
  • 无硬性限流:平台不设置统一的RPM/TPM上限。您的服务流量上限取决于所部署模型单元的实际承载力,让业务增长不受固定配额限制。

适用场景

  • 需要部署自定义模型(包括微调后模型、用户上传模型)进行大规模、持续性的推理服务。
  • 对服务的SLA(服务质量协议)有严格要求的生产环境,追求高并发、低延迟与可控的总体成本。
  • 业务流量持续且稳定,能够充分利用预留资源,以实现最佳性价比。

场景建议:对于流量极低或间歇性、偶发性的推理需求,由于需要承载一个模型服务单元的起步资源,其成本优势可能不显著。

支持模型

具体模型以控制台实际为准:

模型单元

A型模型单元

B型模型单元

C型模型单元

D型模型单元

L型模型单元

M型模型单元

适用模型

Qwen3-8B

...

Qwen2.5-8B

Qwen2.5-14B

...


Qwen2.5-32B

Qwen3-32B

...

DeepSeek-r1

DeepSeek-v3

Qwen3-235B-A22B-Thinking-2507

...

Qwen3-4B

...

Qwen3-8B

...

注意:推荐用户通过模型压测方式选择所需模型单元类型及数量。
上一篇:模型研发下一篇:模型仓库
该篇文档内容是否对您有帮助?
有帮助没帮助