模型名称	上下文长度	输入（元/百万Token）	缓存命中（元/百万Token）	输出（元/百万Token）	价格更新时间
DeepSeek R1	128K	4	1.6	16	2025/08/15
DeepSeek V3	64K	2	0.8	8	2025/08/15
DeepSeek-V3.1	128K	4	1.6	12	2025/09/15
DeepSeek-V3.2-Exp	128K	2	0.2	3	2025/10/11
DeepSeek-V3.2	160K	2	0.2	3	2025/12/02
DeepSeek-V3.2-Speciale	160K	2	0.2	3	2025/12/02
DeepSeek-V3.1-Terminus	128K	4	1.6	12	2025/12/18
DeepSeek-OCR	-	0.216	-	0.216	2025/12/29
DeepSeek-V4-Flash	1M	1	0.2	2	2026/04/24
DeepSeek-V4-Pro	1M	12	1	24	2026/04/24

Qwen系列：

模型名称	上下文长度	输入（元/百万Token）	缓存命中（元/百万Token）	输出（元/百万Token）	价格更新时间
Qwen3-32B	128K	2	0.8	思考：20 非思考：8	2025/08/15
Qwen3-30B-A3B	128K	0.75	0.3	思考：7.5 非思考：3	2025/08/15
Qwen3-8B	128K	0.5	0.2	思考：5 非思考：2	2025/08/15
Qwen2.5-7B-Instruct	128K	0.5	0.2	1	2025/08/15
Qwen3-235B-A22B-Thinking-2507	128K	2	-	20	2025/10/18
Qwen3-VL-235B-A22B-Thinking	128K	2	-	20	2025/10/31
Qwen3-VL-235B-A22B-Instruct	128K	2	0.4	8	2025/10/31
Qwen3-30B-A3B-Instruct-2507	128K	0.75	0.15	3	2025/11/27
Qwen3-30B-A3B-Thinking-2507	128K	0.75	0.15	7.5	2025/11/27
Qwen3-235B-A22B-Instruct-2507	128K	2	0.4	8	2025/11/27
Qwen3-Coder-Next	256K	输入长度(0, 32K】：1 输入长度(32, 128K】：1.5 输入长度(128, 256K】：2.5	输入长度(0, 32K】：0.2 输入长度(32, 128K】：0.3 输入长度(128, 256K】：0.5	输入长度(0, 32K】：4 输入长度(32, 128K】：6 输入长度(128, 256K】：10	2026/02/23
Qwen3.5-Plus	1M	输入长度(0, 128K】:0.8 输入长度(128, 256K】:2 输入长度(256K,1M】:4	-	输入长度(0, 128K】：4.8 输入长度(128, 256K】:12 输入长度(256K,1M】:24	2026/02/16
Qwen3.5-397B-A17B	256K	输入长度(0, 128K】：1.2 输入长度(128, 256K】:3	输入长度(0, 128K】：0.24 输入长度(128, 256K】:0.6	输入长度(0, 128K】：7.2 输入长度(128, 256K】:18	2026/02/16
Qwen3.5-122B-A10B	256K	输入长度(0, 128K】：0.8 输入长度(128, 256K】:2	-	输入长度(0, 128K】：6.4 输入长度(128, 256K】:16	2026/02/25
Qwen3.5-27B	256K	输入长度(0, 128K】：0.6 输入长度(128, 256K】:1.8	-	输入长度(0, 128K】：4.8 输入长度(128, 256K】:14.4	2026/02/25
Qwen3.5-35B-A3B	256K	输入长度(0, 128K】：0.4 输入长度(128, 256K】:1.6	-	输入长度(0, 128K】：3.2 输入长度(128, 256K】:12.8	2026/02/25

Kimi系列：

模型名称	上下文长度	输入（元/百万Token）	缓存命中（元/百万Token）	输出（元/百万Token）	价格更新时间
Kimi K2-Instruct-0905	256K	4	1.6	16	2025/08/15
Kimi-K2.5	256K	4	0.7	21	2026/01/28
Kimi-K2.6	256K	6.5	1.1	27	2026/04/21

GLM系列：

模型名称	输入（元/百万Token）	输入（元/百万Token）	缓存命中（元/百万Token）	输出（元/百万Token）	价格更新时间
GLM-4.6	输入长度[0, 32K)，输出长度[0, 0.2K)	2	0.4	8	2025/12/18
	输入长度[0, 32K)，输出长度[0.2+K)	3	0.6	14
	输入长度[32, 200K)	4	0.8	16
GLM-4.7	输入长度[0, 32K)，输出长度[0, 0.2K]	2	0.4	8	2025/12/25
	输入长度[0, 32K)，输出长度[0.2+K]	3	0.6	14
	输入长度[32, 200K)	4	0.8	16
GLM-5	输入长度[0, 32K)	4	1	18	2026/02/12
GLM-5	输入长度[32, 200K)	6	1.5	22	2026/02/12
GLM-5-Turbo	输入长度 [0, 32K)	5	1.2	22	2026/03/16
GLM-5-Turbo	输入长度[32, 200K)	7	1.8	26	2026/03/16
GLM-5.1	输入长度 [0, 32K)	6	1.3	24	2026/03/27
GLM-5.1	输入长度[32, 200K)	8	2	28	2026/03/27
GLM-5.2	1M	8	2	28	2026/06/17

MiniMax系列：

模型名称	输入（元/百万Token）	输出（元/百万Token）	缓存写入（元/百万Token）	缓存命中（元/百万Token）	价格更新时间
MiniMax-M2	2.1	8.4	2.625	0.21	2025/12/18
MiniMax-M2.1	2.1	8.4	2.625	0.21	2025/12/24
MiniMax-M2.1-lightning	2.1	16.8	2.625	0.21	2026/01/05
MiniMax-M2.5	2.1	8.4	2.625	0.21	2026/02/12
MiniMax-M2.7	2.1	8.4	2.625	0.42	2026/03/18

KwaiKAT系列：

模型名称	输入（元/百万Token）	输出（元/百万Token）	缓存写入（元/百万Token）	缓存命中（元/百万Token）	价格更新时间
KAT-Coder-Air V1	免费	免费	免费	免费	2025/10/15
KAT-Coder-Exp-72B 1010	免费	免费	免费	免费	2025/10/15
KAT-Coder-Pro V1	2.1	8.4	免费	0.42	2026/01/05
KAT-Coder-Pro V2	2.1	8.4	免费	0.42	2026/03/27

多模态模型：

多模态模型	模型类型	单价	价格更新时间
Z-Image-Turbo	图像生成	0.1 元/张	2026/02/03
Wan2.2-I2V-A14B	视频生成	480P：0.284 元/秒 720P：0.568 元/秒	2026/02/03
Wan2.2-T2V-A14B	视频生成	480P：0.284 元/秒 720P：0.568 元/秒	2026/02/09
Qwen-Image	图像生成	0.25元/张	2026/02/10
Qwen-Image-Edit-2509	图像生成	0.2元/张	2026/02/10
Wan2.2-TI2V-5B	视频生成	720P：0.213 元/秒	2026/02/12

二、批量推理

按 Token 后付费价格

部分模型的批量推理价格是在线推理价格的50%，实际请以下面表格中的价格为准。

计费公式

批量推理费用 = 输入单价 × 输入token + 输出单价 × 输出token, 其中输出token包括模型输出content内容和思维链reasoning_content内容。

批量推理费用 = 输入单价 × 输入token + 输出单价 × 输出token。

计费单价

模型名称	上下文长度	输入（元/百万Token）	输出（元/百万Token）	缓存命中（元/百万Token）	价格更新时间
DeepSeek R1	128K	2	8	1.6	2025/08/15
DeepSeek V3	64K	1	4	0.8	2025/08/15
Qwen3-32B	128K	1	思考：10 非思考：4	0.8	2025/08/15
DeepSeek-V3.1	128K	2	6	1.6	2025/09/15
DeepSeek-V3.2-Exp	128K	1	1.5	0.2	2025/10/11
Qwen3-235B-A22B-Thinking-2507	128K	1	10	0.4	2025/10/18
Qwen3-VL-235B-A22B-Thinking	128K	1	10	0.4	2025/10/28
DeepSeek-V3.2	160K	1	1.5	0.2	2025/12/02
DeepSeek-V3.2-Speciale	160K	1	1.5	0.2	2025/12/02

三、模型微调

计费方式：按 token 后付费

计费公式：训练费用 =（训练集 tokens ） x epoch（迭代轮次）x 微调单价

微调方式：支持SFT/DPO/CPT
训练方法：支持LoRA/FULL

计费单价：根据不同模型的微调方式和训练方法，价格不同

序号	模型	微调方式	训练方法SFT	训练方法DPO	训练方法CPT	价格单位
1	Qwen2.5-1.5B-Instruct	FULL： LoRA：	2 2	10 10	2 2	元/百万token
2	Qwen2.5-7B-Instruct	FULL： LoRA：	4.8 3	4.8 4.8	4.8 3	元/百万token
3	Qwen2.5-14B-Instruct	FULL： LoRA：	6 4	6.5 4.5	6 4	元/百万token
4	Qwen2.5-32B-Instruct	FULL： LoRA：	20 10	24 24	20 10	元/百万token
5	Qwen3-0.6B	FULL： LoRA：	2 2	8 7	2 2	元/百万token
6	Qwen3-1.7B	FULL： LoRA：	2 2	8 7	2 2	元/百万token
7	Qwen3-4B	FULL： LoRA：	3 2.5	40 30	3 2.5	元/百万token
8	Qwen3-8B	FULL： LoRA：	4 3	4.8 4.8	4 3	元/百万token
9	Qwen3-14B	FULL： LoRA：	9 6.5	24 24	9 6.5	元/百万token
10	Qwen3-32B	FULL： LoRA：	15 10	32 32	15 10	元/百万token
11	Qwen2.5-VL-7B-Instruct	FULL： LoRA：	8 5	- -	- -	元/百万token
12	Qwen2.5-VL-32B-Instruct	FULL： LoRA：	80 10	- -	- -	元/百万token
13	Wan2.2-I2V-A14B	LoRA：	350	-	-	元/百万token
14	Wan2.2-T2V-A14B	LoRA：	350	-	-	元/百万token
15	Qwen-Image-2512	LoRA：	100	-	-	元/百万token
16	Qwen-Image-Edit-2511	LoRA：	100	-	-	元/百万token
17	OneReason-0.8B-pretrain-competition	FULL： LoRA：	1 1	- -	- -	元/百万token

四、模型部署

计费方式：按模型单元付费

模型单元提供专属算力，对精调后模型表现更优。模型单元按照您选择的模型和使用时长进行收费，支持「按小时后付费」和「按月预付费」两种方式，您可依据业务需求灵活采购，支持随时调整增加或调减。

序号	模型单元	后付费价格	预付费价格（相当于后付费价格的6.6折）	价格更新时间
1	L型模型单元	5.00元/小时	2376.00元/月	2025/12/18
2	M型模型单元	8.50元/小时	4039.20元/月	2025/12/18
3	A型模型单元	8.50元/小时	4039.20元/月	2025/12/18
4	B型模型单元	34.00元/小时	16156.80元/月	2025/12/18
5	C型模型单元	68.00元/小时	32313.60元/月	2025/12/18
6	D型模型单元	272.00元/小时	129254.40元/月	2025/12/18
7	E型模型单元	457.00元/小时	217166.40元/月	2026/03/30

适用模型参见模型部署，具体以控制台推荐为准。

五、模型研发

模型研发-开发机

计费方式：按开发机使用类型、数量、区域，后付费

序号	开发机类型	GPU卡型	单价	单价单位	价格更新时间
1	开发机-ml.gni1.xlarge	A10	华北1：3.8 华北2：2.8	元/小时	2026/1/20
2	开发机-ml.gni1.2xlarge	A10	华北1：7.6 华北2：5.6	元/小时	2026/1/20
3	开发机-ml.gni1.4xlarge	A10	华北1：15.2 华北2：11.2	元/小时	2026/1/20
4	开发机-ml.gni1.8xlarge	A10	华北1：30.4 华北2：22.4	元/小时	2026/1/20
5	开发机-ml.gni2.xlarge	RTX-4090	华北1：6.64 华北2：4.44	元/小时	2026/1/20
6	开发机-ml.gni2.2xlarge	RTX-4090	华北1：13.28 华北2：8.88	元/小时	2026/1/20
7	开发机-ml.gni2.4xlarge	RTX-4090	华北1：26.56 华北2：17.76	元/小时	2026/1/20
8	开发机-ml.gni2.8xlarge	RTX-4090	华北1：53.12 华北2：35.52	元/小时	2026/1/20
9	开发机-ml.gni3.xlarge	RTX-4090D	华北1：6.64 华北2：4.44	元/小时	2026/1/20
10	开发机-ml.gni3.2xlarge	RTX-4090D	华北1：13.28 华北2：8.88	元/小时	2026/1/20
11	开发机-ml.gni3.4xlarge	RTX-4090D	华北1：26.56 华北2：17.76	元/小时	2026/1/20
12	开发机-ml.gni3.8xlarge	RTX-4090D	华北1：53.12 华北2：35.52	元/小时	2026/1/20
13	开发机-ml.gni4.xlarge	L20	华北1：12.32 华北2：8.88	元/小时	2026/1/20
14	开发机-ml.gni4.2xlarge	L20	华北1：24.64 华北2：17.76	元/小时	2026/1/20
15	开发机-ml.gni4.4xlarge	L20	华北1：49.28 华北2：35.52	元/小时	2026/1/20
16	开发机-ml.gni4.8xlarge	L20	华北1：98.56 华北2：71.04	元/小时	2026/1/20
17	开发机-ml.gni6.xlarge	GNX200	华北1：36.28 华北2：32.28	元/小时	2026/1/20
18	开发机-ml.gni6.2xlarge	GNX200	华北1：72.56 华北2：64.56	元/小时	2026/1/20
19	开发机-ml.gni6.4xlarge	GNX200	华北1：145.12 华北2：129.12	元/小时	2026/1/20
20	开发机ml.gni6.8xlarge	GNX200	华北1：290.24 华北2：258.24	元/小时	2026/1/20