logologo
售前咨询
快手万擎
开始使用
模型介绍
产品计费
API说明
控制台介绍
场景示例
相关协议
文档中心
产品计费模型服务价格

模型服务价格


不同模型服务支持的能力及单价各不相同,本文为您介绍各模型的计费公式及单价,方便您进行模型价格查阅和比较。

一、在线推理

按 token 后付费价格

计费公式

在线推理费用 = 输入单价 × 输入token + 输出单价 × 输出token,其中输出 token 包括模型输出content内容和思维链reasoning_content内容。

若开启上下文缓存 ,在线推理费用 = 输入单价 × (输入token - 缓存命中token) + 缓存命中单价 × 缓存命中token + 输出单价 × 输出token。

部分模型支持指定思考/非思考模式,若不指定,则以默认逻辑为准。

计费单价

模型名称

上下文长度

输入(元/百万 tokens)

缓存命中(元/百万 tokens)

输出(元/百万 tokens)

DeepSeek R1

128K

4

1.6

16

DeepSeek V3

64K

2

0.8

8

Qwen3-32B

128K

2

0.8

思考:20

非思考:8

Qwen3-30B-A3B

128k

0.75

0.3

思考:7.5

非思考:3

Qwen3-8B

128k

0.5

0.2

思考:5

非思考:2

Qwen2.5-72B-Instruct(即将上线)

128k

4

1.6

12

Qwen2.5-7B-Instruct

128k

0.5

0.2

1

kimi-k2-Instruct

128K

4

1.6

16

DeepSeek-V3.1

160K

4

1.6

思考:12

非思考:12

模型名称

上下文长度

输入token数

输入(元/百万 tokens)

缓存命中(元/百万 tokens)

输出(元/百万 tokens)

KAT-Coder

256K

0-32K

5.5

0.8

22

32-128K

6.5

1.2

26

128-256K

9.5

2

38


二、批量推理

按 token 后付费价格

部分模型的批量推理价格是在线推理价格的50%,实际请以下面表格中的价格为准。

计费公式

批量推理费用 = 输入单价 × 输入token + 输出单价 × 输出token, 其中输出token包括模型输出content内容和思维链reasoning_content内容。

批量推理费用 = 输入单价 × 输入token + 输出单价 × 输出token。

计费单价

模型名称

上下文长度

输入(元/百万 tokens)

输出(元/百万 tokens)

DeepSeek R1

128K

2

8

DeepSeek V3

64K

1

4

Qwen3-32B

128K

1


思考:10

非思考:4

Qwen3-30B-A3B

128k

0.375

思考:3.75

非思考:1.5

Qwen3-8B

128k

0.25

思考:2.5

非思考:1

Qwen2.5-72B-Instruct(即将上线)

128k

2

6

Qwen2.5-7B-Instruct

128k

0.25

0.5

kimi-k2-Instruct

128K

2

8

DeepSeek-V3.1

160K

2

思考:6

非思考:6


三、模型微调

计费方式:按 token 后付费

计费公式:训练费用 =(训练集 tokens ) x  epoch(迭代轮次)x 微调单价

  • 微调方式:支持SFT/DPO
  • 训练方法:支持LoRA/FULL

计费单价:根据不同模型的微调方式和训练方法,价格不同

序号

模型

微调方式 \ 训练方法

SFT

DPO

价格单位

1

Qwen2.5-1.5B-Instruct

全量更新

2

10

元/百万token

LoRA

2

10

元/百万token

2

Qwen2.5-7B-Instruct

全量更新

4.8

4.8

元/百万token

LoRA

3

4.8

元/百万token

3

Qwen2.5-14B-Instruct

全量更新

6

6.5

元/百万token

LoRA

4

4.5

元/百万token

4

Qwen2.5-32B-Instruct

全量更新

20

24

元/百万token

LoRA

10

24

元/百万token

5

Qwen3-0.6B

全量更新

2

8

元/百万token

LoRA

2

7

元/百万token

6

Qwen3-1.7B

全量更新

2

8

元/百万token

LoRA

2

7

元/百万token

7

Qwen3-4B

全量更新

3

40

元/百万token

LoRA

2.5

30

元/百万token

8

Qwen3-8B

全量更新

4

4.8

元/百万token

LoRA

3

4.8

元/百万token

9

Qwen3-14B

全量更新

9

24

元/百万token

LoRA

6.5

24

元/百万token

10

Qwen3-32B

全量更新

15

32

元/百万token

LoRA

10

32

元/百万token

11

DeepSeek-R1-Distill-Qwen-14B

全量更新

9

24

元/百万token

LoRA

6.5

24

元/百万token

12

DeepSeek-R1-Distill-Qwen-32B

全量更新

15

32

元/百万token

LoRA

10

32

元/百万token


四、微调后推理

计费方式:按模型单元付费

模型单元提供专属算力,对精调后模型表现更优。模型单元按照您选择的模型和使用时长进行收费,支持「按小时后付费」,您可依据业务流量灵活采购,支持随时调整增加或调减。

序号

模型单元

单元价格(元/小时/个)

1

Qwen2.5-1.5B-Instruct

40

2

Qwen2.5-7B-Instruct

40

3

Qwen2.5-14B-Instruct

40

4

Qwen2.5-32B-Instruct

80

5

Qwen3-0.6B

40

6

Qwen3-1.7B

40

7

Qwen3-4B

40

8

Qwen3-8B

40

9

Qwen3-14B

40

10

Qwen3-32B

80

11

DeepSeek-R1-Distill-Qwen-14B

40

12

DeepSeek-R1-Distill-Qwen-32B

80

上一篇:免费推理额度下一篇:模型计费说明
该篇文档内容是否对您有帮助?
有帮助没帮助