logologo
售前咨询
快手万擎(Vanchin)
开始使用
产品介绍
模型介绍
控制台介绍
产品计费
API说明
常见问题
相关协议
文档中心
产品计费模型服务价格

模型服务价格


不同模型服务支持的能力及单价各不相同,本文为您介绍各模型的计费公式及单价,方便您进行模型价格查阅和比较。

一、在线推理

按 Token 后付费价格

计费公式

在线推理费用 = 输入单价 × 输入Token + 输出单价 × 输出Token,其中输出Token 包括模型输出content内容和思维链reasoning_content内容。

若开启上下文缓存 ,在线推理费用 = 输入单价 × (输入Token - 缓存命中Token) + 缓存命中单价 × 缓存命中Token + 输出单价 × 输出Token。

部分模型支持指定思考/非思考模式,若不指定,则以默认逻辑为准。

计费单价

模型名称

上下文长度

输入(元/百万Token)

缓存命中(元/百万Token)

输出(元/百万Token)

价格更新时间

DeepSeek R1

128K

4

1.6

16

2025/08/15

DeepSeek V3

64K

2

0.8

8

2025/08/15

Qwen3-32B

128K

2

0.8

思考:20

非思考:8

2025/08/15

Qwen3-30B-A3B

128K

0.75

0.3

思考:7.5

非思考:3

2025/08/15

Qwen3-8B

128K

0.5

0.2

思考:5

非思考:2

2025/08/15

Qwen2.5-7B-Instruct

128K

0.5

0.2

1

2025/08/15

Kimi K2-Instruct-0905

256K

4

1.6

16

2025/08/15

DeepSeek-V3.1

128K

4

1.6

12

2025/09/15

DeepSeek-V3.2-Exp

128K

2

-

3

2025/10/11

Qwen3-235B-A22B-Thinking-2507

128K

2

-

20

2025/10/18

Qwen3-VL-235B-A22B-Thinking

128K

2

-

20

2025/10/31

Qwen3-VL-235B-A22B-Instruct

128K

2

0.4

8

2025/10/31

Qwen3-30B-A3B-Instruct-2507

128K

0.75

0.15

3

2025/11/27

Qwen3-30B-A3B-Thinking-2507

128K

0.75

0.15

7.5

2025/11/27

Qwen3-235B-A22B-Instruct-2507

128K

2

0.4

8

2025/11/27

DeepSeek-V3.2

160K

2

0.2

3

2025/12/02

DeepSeek-V3.2-Speciale

160K

2

0.2

3

2025/12/02

DeepSeek-V3.1-Terminus

128K

4

1.6

12

2025/12/18

DeepSeek-OCR

-

0.216

-

0.216

2025/12/29

Kimi-K2.5

256K

4

0.7

21

2026/01/28

Qwen3-Coder-Next

256K

输入长度[0, 32K):4

输入长度[32, 128K):6

输入长度[128, 256K):10

输入长度[0, 32K):16

输入长度[32, 128K):24

输入长度[128, 256K):40

输入长度[0, 32K):0.8

输入长度[32, 128K):1.2

输入长度[128, 256K):2

2026/02/12

GLM系列:

模型名称

输入(元/百万Token)

输出(元/百万Token)

缓存命中(元/百万Token)

输出(元/百万Token)

价格更新时间

GLM-4.6

输入长度[0, 32K],输出长度[0, 0.2K]

2

0.4

8

2025/12/18

输入长度[0, 32K],输出长度[0.2+K]

3

0.6

14

输入长度[32, 200K]

4

0.8

16

GLM-4.7

输入长度[0, 32K],输出长度[0, 0.2K]

2

0.4

8

2025/12/25

输入长度[0, 32K],输出长度[0.2+K]

3

0.6

14

输入长度[32, 200K]

4

0.8

16

GLM-5

输入长度[0, 32K]

4

1

18

2026/02/12

输入长度[32, 200K]

6

1.5

22

MiniMax系列:

模型名称

输入(元/百万Token)

输出(元/百万Token)

缓存写入(元/百万Token)

缓存命中(元/百万Token)

价格更新时间

MiniMax-M2

2.1

8.4

2.625

0.21

2025/12/18

MiniMax-M2.1

2.1

8.4

2.625

0.21

2025/12/24

MiniMax-M2.1-lightning

2.1

16.8

2.625

0.21

2026/01/05

MiniMax-M2.5

2.1

8.4

2.625

0.21

2026/02/12

KwaiKAT系列:

模型名称

上下文长度

输入token数

输入(元/百万 tokens)

缓存命中(元/百万 tokens)

输出(元/百万 tokens)

价格更新时间

KAT-Coder-Air V1

128K

0-128K

免费

免费

免费

2025/10/15

KAT-Coder-Exp-72B 1010

128K

0-128K

免费

免费

免费

2025/10/15

KAT-Coder-Pro V1

256K

0-256k

2.1

0.42

8.4

2026/01/05

说明:KAT-Coder-Pro V1 限时69折:活动期:2026/01/05-2026/03/05

多模态模型:

多模态模型

模型类型

单价

价格更新时间

Z-Image-Turbo

图像生成

0.1 元/张

2026/02/03

Wan2.2-I2V-A14B

视频生成

480P:0.284 元/秒

720P:0.568 元/秒

2026/02/03

Wan2.2-T2V-A14B

视频生成

480P:0.284 元/秒

720P:0.568 元/秒

2026/02/09

Qwen-Image

图像生成

0.25元/张

2026/02/10

Qwen-Image-Edit-2509

图像生成

0.2元/张

2026/02/10

Wan2.2-TI2V-5B

视频生成

720P:0.213 元/秒

2026/02/12


二、批量推理

按 Token 后付费价格

部分模型的批量推理价格是在线推理价格的50%,实际请以下面表格中的价格为准。

计费公式

批量推理费用 = 输入单价 × 输入token + 输出单价 × 输出token, 其中输出token包括模型输出content内容和思维链reasoning_content内容。

批量推理费用 = 输入单价 × 输入token + 输出单价 × 输出token。

计费单价

模型名称

上下文长度

输入(元/百万Token)

输出(元/百万Token)

价格更新时间

DeepSeek R1

128K

2

8

2025/08/15

DeepSeek V3

64K

1

4

2025/08/15

Qwen3-32B

128K

1


思考:10

非思考:4

2025/08/15

Qwen3-30B-A3B

128k

0.375

思考:3.75

非思考:1.5

2025/08/15

Qwen3-8B

128k

0.25

思考:2.5

非思考:1

2025/08/15

Qwen2.5-7B-Instruct

128k

0.25

0.5

2025/08/15

kimi-k2-Instruct

256K

2

8

2025/08/15

DeepSeek-V3.1

128K

2

6

2025/09/15

DeepSeek-V3.2-Exp

128K

1

1.5

2025/10/11

Qwen3-235B-A22B-Thinking-2507

128K

1

10

2025/10/18

Qwen3-VL-235B-A22B-Thinking

128K

1

10

2025/10/28

Qwen3-VL-235B-A22B-Instruct

128K

1

4

2025/10/31

Qwen3-30B-A3B-Instruct-2507

128K

0.375

1.5

2025/11/27

Qwen3-30B-A3B-Thinking-2507

128K

0.375

3.75

2025/11/27

Qwen3-235B-A22B-Instruct-2507

128K

1

4

2025/11/27

DeepSeek-V3.2

160K

1

1.5

2025/12/02

DeepSeek-V3.2-Speciale

160K

1

1.5

2025/12/02



三、模型微调

计费方式:按 token 后付费

计费公式:训练费用 =(训练集 tokens ) x  epoch(迭代轮次)x 微调单价

  • 微调方式:支持SFT/DPO
  • 训练方法:支持LoRA/FULL

计费单价:根据不同模型的微调方式和训练方法,价格不同

序号

模型

微调方式 \ 训练方法

SFT

DPO

价格单位

1

Qwen2.5-1.5B-Instruct

全量更新

2

10

元/百万Token

LoRA

2

10

元/百万Token

2

Qwen2.5-7B-Instruct

全量更新

4.8

4.8

元/百万Token

LoRA

3

4.8

元/百万Token

3

Qwen2.5-14B-Instruct

全量更新

6

6.5

元/百万Token

LoRA

4

4.5

元/百万Token

4

Qwen2.5-32B-Instruct

全量更新

20

24

元/百万Token

LoRA

10

24

元/百万Token

5

Qwen3-0.6B

全量更新

2

8

元/百万Token

LoRA

2

7

元/百万Token

6

Qwen3-1.7B

全量更新

2

8

元/百万Token

LoRA

2

7

元/百万Token

7

Qwen3-4B

全量更新

3

40

元/百万Token

LoRA

2.5

30

元/百万Token

8

Qwen3-8B

全量更新

4

4.8

元/百万Token

LoRA

3

4.8

元/百万Token

9

Qwen3-14B

全量更新

9

24

元/百万Token

LoRA

6.5

24

元/百万Token

10

Qwen3-32B

全量更新

15

32

元/百万Token

LoRA

10

32

元/百万Token

11

DeepSeek-R1-Distill-Qwen-14B

全量更新

9

24

元/百万Token

LoRA

6.5

24

元/百万Token

12

DeepSeek-R1-Distill-Qwen-32B

全量更新

15

32

元/百万Token

LoRA

10

32

元/百万Token


四、模型部署

计费方式:按模型单元付费

模型单元提供专属算力,对精调后模型表现更优。模型单元按照您选择的模型和使用时长进行收费,支持「按小时后付费」和「按月预付费」两种方式,您可依据业务需求灵活采购,支持随时调整增加或调减。

序号

模型单元

后付费价格

预付费价格(相当于后付费价格的6.6折)

价格更新时间

1

L型模型单元

5.00元/小时

2376.00元/月

2025/12/18

2

M型模型单元

8.50元/小时

4039.20元/月

2025/12/18

3

A型模型单元

8.50元/小时

4039.20元/月

2025/12/18

4

B型模型单元

34.00元/小时

16156.80元/月

2025/12/18

5

C型模型单元

68.00元/小时

32313.60元/月

2025/12/18

6

D型模型单元

272.00元/小时

129254.40元/月

2025/12/18

适用模型参见模型部署,具体以控制台推荐为准。


五、模型研发

模型研发-开发机

计费方式:按开发机使用类型、数量、区域,后付费

序号

开发机类型

GPU卡型

单价

单价单位

价格更新时间

1

开发机-ml.gni1.xlarge

A10

华北1:3.8

华北2:2.8

元/小时

2026/1/20

2

开发机-ml.gni1.2xlarge

A10

华北1:7.6

华北2:5.6

元/小时

2026/1/20

3

开发机-ml.gni1.4xlarge

A10

华北1:15.2

华北2:11.2

元/小时

2026/1/20

4

开发机-ml.gni1.8xlarge

A10

华北1:30.4

华北2:22.4

元/小时

2026/1/20

5

开发机-ml.gni2.xlarge

RTX-4090

华北1:6.64

华北2:4.44

元/小时

2026/1/20

6

开发机-ml.gni2.2xlarge

RTX-4090

华北1:13.28

华北2:8.88

元/小时

2026/1/20

7

开发机-ml.gni2.4xlarge

RTX-4090

华北1:26.56

华北2:17.76

元/小时

2026/1/20

8

开发机-ml.gni2.8xlarge

RTX-4090

华北1:53.12

华北2:35.52

元/小时

2026/1/20

9

开发机-ml.gni3.xlarge

RTX-4090D

华北1:6.64

华北2:4.44

元/小时

2026/1/20

10

开发机-ml.gni3.2xlarge

RTX-4090D

华北1:13.28

华北2:8.88

元/小时

2026/1/20

11

开发机-ml.gni3.4xlarge

RTX-4090D

华北1:26.56

华北2:17.76

元/小时

2026/1/20

12

开发机-ml.gni3.8xlarge

RTX-4090D

华北1:53.12

华北2:35.52

元/小时

2026/1/20

13

开发机-ml.gni4.xlarge

L20

华北1:12.32

华北2:8.88

元/小时

2026/1/20

14

开发机-ml.gni4.2xlarge

L20

华北1:24.64

华北2:17.76

元/小时

2026/1/20

15

开发机-ml.gni4.4xlarge

L20

华北1:49.28

华北2:35.52

元/小时

2026/1/20

16

开发机-ml.gni4.8xlarge

L20

华北1:98.56

华北2:71.04

元/小时

2026/1/20

17

开发机-ml.gni6.xlarge

GNX200

华北1:36.28

华北2:32.28

元/小时

2026/1/20

18

开发机-ml.gni6.2xlarge

GNX200

华北1:72.56

华北2:64.56

元/小时

2026/1/20

19

开发机-ml.gni6.4xlarge

GNX200

华北1:145.12

华北2:129.12

元/小时

2026/1/20

20

开发机ml.gni6.8xlarge

GNX200

华北1:290.24

华北2:258.24

元/小时

2026/1/20

模型研发-KFS

计费方式:按提交的存储大小、使用时长,后付费

序号

KFS存储类型

单价

单价单位

价格更新时间

1

KFS-容量存储

华北1:0.1275

华北2:0.26112

元/GB/月

2026/1/30

2

KFS-性能存储

华北1:1.41005

华北2:1.41005

元/GB/月

2026/1/30



上一篇:免费推理额度下一篇:模型计费说明
该篇文档内容是否对您有帮助?
有帮助没帮助