logologo
售前咨询
快手万擎(Vanchin)
开始使用
产品介绍
模型介绍
控制台介绍
产品计费
API说明
常见问题
相关协议
文档中心
产品计费模型服务价格

模型服务价格


不同模型服务支持的能力及单价各不相同,本文为您介绍各模型的计费公式及单价,方便您进行模型价格查阅和比较。

一、在线推理

按 Token 后付费价格

计费公式

在线推理费用 = 输入单价 × 输入Token + 输出单价 × 输出Token,其中输出Token 包括模型输出content内容和思维链reasoning_content内容。

若开启上下文缓存 ,在线推理费用 = 输入单价 × (输入Token - 缓存命中Token) + 缓存命中单价 × 缓存命中Token + 输出单价 × 输出Token。

部分模型支持指定思考/非思考模式,若不指定,则以默认逻辑为准。

计费单价

模型名称

上下文长度

输入(元/百万Token)

缓存命中(元/百万Token)

输出(元/百万Token)

价格更新时间

DeepSeek R1

128K

4

1.6

16

2025/08/15

DeepSeek V3

64K

2

0.8

8

2025/08/15

Qwen3-32B

128K

2

0.8

思考:20

非思考:8

2025/08/15

Qwen3-30B-A3B

128K

0.75

0.3

思考:7.5

非思考:3

2025/08/15

Qwen3-8B

128K

0.5

0.2

思考:5

非思考:2

2025/08/15

Qwen2.5-7B-Instruct

128K

0.5

0.2

1

2025/08/15

Kimi K2-Instruct-0905

256K

4

1.6

16

2025/08/15

DeepSeek-V3.1

128K

4

1.6

12

2025/09/15

DeepSeek-V3.2-Exp

128K

2

-

3

2025/10/11

Qwen3-235B-A22B-Thinking-2507

128K

2

-

20

2025/10/18

Qwen3-VL-235B-A22B-Thinking

128K

2

-

20

2025/10/31

Qwen3-VL-235B-A22B-Instruct

128K

2

0.4

8

2025/10/31

Qwen3-30B-A3B-Instruct-2507

128K

0.75

0.15

3

2025/11/27

Qwen3-30B-A3B-Thinking-2507

128K

0.75

0.15

7.5

2025/11/27

Qwen3-235B-A22B-Instruct-2507

128K

2

0.4

8

2025/11/27

DeepSeek-V3.2

160K

2

0.2

3

2025/12/02

DeepSeek-V3.2-Speciale

160K

2

0.2

3

2025/12/02

DeepSeek-V3.1-Terminus

128K

4

1.6

12

2025/12/18

GLM-4.6

输入长度[0, 32K]

输出长度[0, 0.2K]

2

0.4

8

2025/12/18

输入长度[0, 32K]

输出长度[0.2+K]

3

0.6

14

输入长度[32, 200K]

4

0.8

16

GLM-4.7

输入长度[0, 32K]

输出长度[0, 0.2K]

2

0.4

8

2025/12/25

输入长度[0, 32K]

输出长度[0.2+K]

3

0.6

14

输入长度[32, 200K]

4

0.8

16

DeepSeek-OCR

-

0.216

-

0.216

2025/12/29


模型名称

输入(元/百万Token)

输出(元/百万Token)

缓存写入(元/百万Token)

缓存命中(元/百万Token)

价格更新时间

MiniMax-M2

2.1

8.4

2.625

0.21

2025/12/18

MiniMax-M2.1

2.1

8.4

2.625

0.21

2025/12/24


KAT-Coder系列

上下文长度

输入token数

输入(元/百万 tokens)

缓存命中(元/百万 tokens)

输出(元/百万 tokens)

价格更新时间

KAT-Coder(已下线)

256K

0-32K

4

0.8

16

2025/10/15

32-128K

6

1.2

24

2025/10/15

128-256K

10

2

40

2025/10/15

KAT-Coder-Pro V1

256K

0-32K

4

0.8

16

2025/10/15

32-128K

6

1.2

24

2025/10/15

128-256K

10

2

40

2025/10/15

KAT-Coder-Air V1

128K

0-128K

免费

免费

免费

2025/10/15

KAT-Coder-Exp-72B 1010

128K

0-128K

免费

免费

免费

2025/10/15

说明:KAT-Coder-Pro V1 是KAT-Coder 的升级版,KAT-Coder已下线,欢迎切换到Pro V1进行使用。



二、批量推理

按 Token 后付费价格

部分模型的批量推理价格是在线推理价格的50%,实际请以下面表格中的价格为准。

计费公式

批量推理费用 = 输入单价 × 输入token + 输出单价 × 输出token, 其中输出token包括模型输出content内容和思维链reasoning_content内容。

批量推理费用 = 输入单价 × 输入token + 输出单价 × 输出token。

计费单价

模型名称

上下文长度

输入(元/百万Token)

输出(元/百万Token)

价格更新时间

DeepSeek R1

128K

2

8

2025/08/15

DeepSeek V3

64K

1

4

2025/08/15

Qwen3-32B

128K

1


思考:10

非思考:4

2025/08/15

Qwen3-30B-A3B

128k

0.375

思考:3.75

非思考:1.5

2025/08/15

Qwen3-8B

128k

0.25

思考:2.5

非思考:1

2025/08/15

Qwen2.5-7B-Instruct

128k

0.25

0.5

2025/08/15

kimi-k2-Instruct

256K

2

8

2025/08/15

DeepSeek-V3.1

128K

2

6

2025/09/15

DeepSeek-V3.2-Exp

128K

1

1.5

2025/10/11

Qwen3-235B-A22B-Thinking-2507

128K

1

10

2025/10/18

Qwen3-VL-235B-A22B-Thinking

128K

1

10

2025/10/28

Qwen3-VL-235B-A22B-Instruct

128K

1

4

2025/10/31

Qwen3-30B-A3B-Instruct-2507

128K

0.375

1.5

2025/11/27

Qwen3-30B-A3B-Thinking-2507

128K

0.375

3.75

2025/11/27

Qwen3-235B-A22B-Instruct-2507

128K

1

4

2025/11/27

DeepSeek-V3.2

160K

1

1.5

2025/12/02

DeepSeek-V3.2-Speciale

160K

1

1.5

2025/12/02



三、模型微调

计费方式:按 token 后付费

计费公式:训练费用 =(训练集 tokens ) x  epoch(迭代轮次)x 微调单价

  • 微调方式:支持SFT/DPO
  • 训练方法:支持LoRA/FULL

计费单价:根据不同模型的微调方式和训练方法,价格不同

序号

模型

微调方式 \ 训练方法

SFT

DPO

价格单位

1

Qwen2.5-1.5B-Instruct

全量更新

2

10

元/百万Token

LoRA

2

10

元/百万Token

2

Qwen2.5-7B-Instruct

全量更新

4.8

4.8

元/百万Token

LoRA

3

4.8

元/百万Token

3

Qwen2.5-14B-Instruct

全量更新

6

6.5

元/百万Token

LoRA

4

4.5

元/百万Token

4

Qwen2.5-32B-Instruct

全量更新

20

24

元/百万Token

LoRA

10

24

元/百万Token

5

Qwen3-0.6B

全量更新

2

8

元/百万Token

LoRA

2

7

元/百万Token

6

Qwen3-1.7B

全量更新

2

8

元/百万Token

LoRA

2

7

元/百万Token

7

Qwen3-4B

全量更新

3

40

元/百万Token

LoRA

2.5

30

元/百万Token

8

Qwen3-8B

全量更新

4

4.8

元/百万Token

LoRA

3

4.8

元/百万Token

9

Qwen3-14B

全量更新

9

24

元/百万Token

LoRA

6.5

24

元/百万Token

10

Qwen3-32B

全量更新

15

32

元/百万Token

LoRA

10

32

元/百万Token

11

DeepSeek-R1-Distill-Qwen-14B

全量更新

9

24

元/百万Token

LoRA

6.5

24

元/百万Token

12

DeepSeek-R1-Distill-Qwen-32B

全量更新

15

32

元/百万Token

LoRA

10

32

元/百万Token


四、模型部署

计费方式:按模型单元付费

模型单元提供专属算力,对精调后模型表现更优。模型单元按照您选择的模型和使用时长进行收费,支持「按小时后付费」和「按月预付费」两种方式,您可依据业务需求灵活采购,支持随时调整增加或调减。

序号

模型单元

后付费价格

预付费价格(相当于后付费价格的6.6折)

价格更新时间

1

L型模型单元

5.00元/小时

2376.00元/月

2025/12/18

2

M型模型单元

8.50元/小时

4039.20元/月

2025/12/18

3

A型模型单元

8.50元/小时

4039.20元/月

2025/12/18

4

B型模型单元

34.00元/小时

16156.80元/月

2025/12/18

5

C型模型单元

68.00元/小时

32313.60元/月

2025/12/18

6

D型模型单元

272.00元/小时

129254.40元/月

2025/12/18

适用模型参见模型部署,具体以控制台推荐为准。



上一篇:免费推理额度下一篇:模型计费说明
该篇文档内容是否对您有帮助?
有帮助没帮助