

不同模型服务支持的能力及单价各不相同,本文为您介绍各模型的计费公式及单价,方便您进行模型价格查阅和比较。
按 Token 后付费价格
计费公式
在线推理费用 = 输入单价 × 输入Token + 输出单价 × 输出Token,其中输出Token 包括模型输出content内容和思维链reasoning_content内容。
若开启上下文缓存 ,在线推理费用 = 输入单价 × (输入Token - 缓存命中Token) + 缓存命中单价 × 缓存命中Token + 输出单价 × 输出Token。
部分模型支持指定思考/非思考模式,若不指定,则以默认逻辑为准。
计费单价
模型名称 | 上下文长度 | 输入(元/百万Token) | 缓存命中(元/百万Token) | 输出(元/百万Token) | 价格更新时间 |
DeepSeek R1 | 128K | 4 | 1.6 | 16 | 2025/08/15 |
DeepSeek V3 | 64K | 2 | 0.8 | 8 | 2025/08/15 |
Qwen3-32B | 128K | 2 | 0.8 | 思考:20 非思考:8 | 2025/08/15 |
Qwen3-30B-A3B | 128K | 0.75 | 0.3 | 思考:7.5 非思考:3 | 2025/08/15 |
Qwen3-8B | 128K | 0.5 | 0.2 | 思考:5 非思考:2 | 2025/08/15 |
Qwen2.5-7B-Instruct | 128K | 0.5 | 0.2 | 1 | 2025/08/15 |
Kimi K2-Instruct-0905 | 256K | 4 | 1.6 | 16 | 2025/08/15 |
DeepSeek-V3.1 | 128K | 4 | 1.6 | 12 | 2025/09/15 |
DeepSeek-V3.2-Exp | 128K | 2 | - | 3 | 2025/10/11 |
Qwen3-235B-A22B-Thinking-2507 | 128K | 2 | - | 20 | 2025/10/18 |
Qwen3-VL-235B-A22B-Thinking | 128K | 2 | - | 20 | 2025/10/31 |
Qwen3-VL-235B-A22B-Instruct | 128K | 2 | 0.4 | 8 | 2025/10/31 |
Qwen3-30B-A3B-Instruct-2507 | 128K | 0.75 | 0.15 | 3 | 2025/11/27 |
Qwen3-30B-A3B-Thinking-2507 | 128K | 0.75 | 0.15 | 7.5 | 2025/11/27 |
Qwen3-235B-A22B-Instruct-2507 | 128K | 2 | 0.4 | 8 | 2025/11/27 |
DeepSeek-V3.2 | 160K | 2 | 0.2 | 3 | 2025/12/02 |
DeepSeek-V3.2-Speciale | 160K | 2 | 0.2 | 3 | 2025/12/02 |
DeepSeek-V3.1-Terminus | 128K | 4 | 1.6 | 12 | 2025/12/18 |
GLM-4.6 | 输入长度[0, 32K] 输出长度[0, 0.2K] | 2 | 0.4 | 8 | 2025/12/18 |
输入长度[0, 32K] 输出长度[0.2+K] | 3 | 0.6 | 14 | ||
输入长度[32, 200K] | 4 | 0.8 | 16 | ||
GLM-4.7 | 输入长度[0, 32K] 输出长度[0, 0.2K] | 2 | 0.4 | 8 | 2025/12/25 |
输入长度[0, 32K] 输出长度[0.2+K] | 3 | 0.6 | 14 | ||
输入长度[32, 200K] | 4 | 0.8 | 16 | ||
DeepSeek-OCR | - | 0.216 | - | 0.216 | 2025/12/29 |
模型名称 | 输入(元/百万Token) | 输出(元/百万Token) | 缓存写入(元/百万Token) | 缓存命中(元/百万Token) | 价格更新时间 |
MiniMax-M2 | 2.1 | 8.4 | 2.625 | 0.21 | 2025/12/18 |
MiniMax-M2.1 | 2.1 | 8.4 | 2.625 | 0.21 | 2025/12/24 |
KAT-Coder系列 | 上下文长度 | 输入token数 | 输入(元/百万 tokens) | 缓存命中(元/百万 tokens) | 输出(元/百万 tokens) | 价格更新时间 |
KAT-Coder(已下线) | 256K | 0-32K | 4 | 0.8 | 16 | 2025/10/15 |
32-128K | 6 | 1.2 | 24 | 2025/10/15 | ||
128-256K | 10 | 2 | 40 | 2025/10/15 | ||
KAT-Coder-Pro V1 | 256K | 0-32K | 4 | 0.8 | 16 | 2025/10/15 |
32-128K | 6 | 1.2 | 24 | 2025/10/15 | ||
128-256K | 10 | 2 | 40 | 2025/10/15 | ||
KAT-Coder-Air V1 | 128K | 0-128K | 免费 | 免费 | 免费 | 2025/10/15 |
KAT-Coder-Exp-72B 1010 | 128K | 0-128K | 免费 | 免费 | 免费 | 2025/10/15 |
说明:KAT-Coder-Pro V1 是KAT-Coder 的升级版,KAT-Coder已下线,欢迎切换到Pro V1进行使用。
按 Token 后付费价格
部分模型的批量推理价格是在线推理价格的50%,实际请以下面表格中的价格为准。
计费公式
批量推理费用 = 输入单价 × 输入token + 输出单价 × 输出token, 其中输出token包括模型输出content内容和思维链reasoning_content内容。
批量推理费用 = 输入单价 × 输入token + 输出单价 × 输出token。
计费单价
模型名称 | 上下文长度 | 输入(元/百万Token) | 输出(元/百万Token) | 价格更新时间 |
DeepSeek R1 | 128K | 2 | 8 | 2025/08/15 |
DeepSeek V3 | 64K | 1 | 4 | 2025/08/15 |
Qwen3-32B | 128K | 1 | 思考:10 非思考:4 | 2025/08/15 |
Qwen3-30B-A3B | 128k | 0.375 | 思考:3.75 非思考:1.5 | 2025/08/15 |
Qwen3-8B | 128k | 0.25 | 思考:2.5 非思考:1 | 2025/08/15 |
Qwen2.5-7B-Instruct | 128k | 0.25 | 0.5 | 2025/08/15 |
kimi-k2-Instruct | 256K | 2 | 8 | 2025/08/15 |
DeepSeek-V3.1 | 128K | 2 | 6 | 2025/09/15 |
DeepSeek-V3.2-Exp | 128K | 1 | 1.5 | 2025/10/11 |
Qwen3-235B-A22B-Thinking-2507 | 128K | 1 | 10 | 2025/10/18 |
Qwen3-VL-235B-A22B-Thinking | 128K | 1 | 10 | 2025/10/28 |
Qwen3-VL-235B-A22B-Instruct | 128K | 1 | 4 | 2025/10/31 |
Qwen3-30B-A3B-Instruct-2507 | 128K | 0.375 | 1.5 | 2025/11/27 |
Qwen3-30B-A3B-Thinking-2507 | 128K | 0.375 | 3.75 | 2025/11/27 |
Qwen3-235B-A22B-Instruct-2507 | 128K | 1 | 4 | 2025/11/27 |
DeepSeek-V3.2 | 160K | 1 | 1.5 | 2025/12/02 |
DeepSeek-V3.2-Speciale | 160K | 1 | 1.5 | 2025/12/02 |
计费方式:按 token 后付费
计费公式:训练费用 =(训练集 tokens ) x epoch(迭代轮次)x 微调单价
计费单价:根据不同模型的微调方式和训练方法,价格不同
序号 | 模型 | 微调方式 \ 训练方法 | SFT | DPO | 价格单位 |
1 | Qwen2.5-1.5B-Instruct | 全量更新 | 2 | 10 | 元/百万Token |
LoRA | 2 | 10 | 元/百万Token | ||
2 | Qwen2.5-7B-Instruct | 全量更新 | 4.8 | 4.8 | 元/百万Token |
LoRA | 3 | 4.8 | 元/百万Token | ||
3 | Qwen2.5-14B-Instruct | 全量更新 | 6 | 6.5 | 元/百万Token |
LoRA | 4 | 4.5 | 元/百万Token | ||
4 | Qwen2.5-32B-Instruct | 全量更新 | 20 | 24 | 元/百万Token |
LoRA | 10 | 24 | 元/百万Token | ||
5 | Qwen3-0.6B | 全量更新 | 2 | 8 | 元/百万Token |
LoRA | 2 | 7 | 元/百万Token | ||
6 | Qwen3-1.7B | 全量更新 | 2 | 8 | 元/百万Token |
LoRA | 2 | 7 | 元/百万Token | ||
7 | Qwen3-4B | 全量更新 | 3 | 40 | 元/百万Token |
LoRA | 2.5 | 30 | 元/百万Token | ||
8 | Qwen3-8B | 全量更新 | 4 | 4.8 | 元/百万Token |
LoRA | 3 | 4.8 | 元/百万Token | ||
9 | Qwen3-14B | 全量更新 | 9 | 24 | 元/百万Token |
LoRA | 6.5 | 24 | 元/百万Token | ||
10 | Qwen3-32B | 全量更新 | 15 | 32 | 元/百万Token |
LoRA | 10 | 32 | 元/百万Token | ||
11 | DeepSeek-R1-Distill-Qwen-14B | 全量更新 | 9 | 24 | 元/百万Token |
LoRA | 6.5 | 24 | 元/百万Token | ||
12 | DeepSeek-R1-Distill-Qwen-32B | 全量更新 | 15 | 32 | 元/百万Token |
LoRA | 10 | 32 | 元/百万Token |
计费方式:按模型单元付费
模型单元提供专属算力,对精调后模型表现更优。模型单元按照您选择的模型和使用时长进行收费,支持「按小时后付费」和「按月预付费」两种方式,您可依据业务需求灵活采购,支持随时调整增加或调减。
序号 | 模型单元 | 后付费价格 | 预付费价格(相当于后付费价格的6.6折) | 价格更新时间 |
1 | L型模型单元 | 5.00元/小时 | 2376.00元/月 | 2025/12/18 |
2 | M型模型单元 | 8.50元/小时 | 4039.20元/月 | 2025/12/18 |
3 | A型模型单元 | 8.50元/小时 | 4039.20元/月 | 2025/12/18 |
4 | B型模型单元 | 34.00元/小时 | 16156.80元/月 | 2025/12/18 |
5 | C型模型单元 | 68.00元/小时 | 32313.60元/月 | 2025/12/18 |
6 | D型模型单元 | 272.00元/小时 | 129254.40元/月 | 2025/12/18 |
适用模型参见模型部署,具体以控制台推荐为准。