2024 年国产大语言 AI 模型主观横评

本文关键词：国产大语言模型实测 国产大语言模型在认知任务上的表现如何？ 国产大语言模型在实际应用中的表现如何？ 如何看待国产大语言模型的未来发展趋势？ 字节豆包，百度文心千帆，腾讯混元，月之暗面，讯飞星火，智谱清言 GLM-4-Plus，百川智能 Baichuan4，零一万物 yi-large，阿里百炼千问 Qwen-2.5-Max，深度求索 Deepseek v2.5

本文目录点击展开

RefID: Q29weS1yaWdodDphcmNoaXZlcy9za2lsbHMvMjAyNC1jaGluYS1sbG1zLWNyb3Nzb3Zlci1yZXZpZXc6d3d3LmhhdHMtbGFuZC5jb20

本文配图点击展开

c2ltcGxlLWV4cGxhbmF0aW9uLW9mLXNzNy1hdHRhY2tzIHwgYmFubmVyIHwgSW1hZ2UgfCAyMDI0MTAwOA

笔者序

随着人工智能技术的飞速发展，大语言模型（LLM）已经成为日常生活中不可或缺的一部分，而我最近也在使用国产大语言模型完成部分 AI 业务的落地工作，接触了一些已通过国家算法备案国内合规的大语言模型提供商。

正好有些朋友对这方面也有兴趣，所以想在这里为各位读者分享一下笔者这段时间的使用体验和亲身感受，对当前主流的国产大语言模型进行一次自认为片面且主观的横评，供各位读者参考，也欢迎各位读者在本文底部的评论区中指出不足。

分级标准说明

叠甲声明

不同场景下的表现可能会有所差异，模型也可能随着时间的推移而有所改进。

笔者平时使用 LLM 的用途主要以 RAG 增强训练和微调模型为主，因此对于代码撰写和连续对话等认知性任务的表现会有所偏重。

在进行横向比较之前，让我们先明确一下评测标准：本文采用 T0-T6 七个等级进行划分，其中 T0 为最高等级，T6 为最低等级，使用体验逐级递减。

本文主要聚焦各个厂家的旗舰模型和次旗舰模型，一些小众产品线可能没考虑到，但是足以看得出厂商的大概阶梯。

评分主要以主观体验为中心，大概列出以下几个参考维度：

认知表现: 模型对 日常聊天、代码撰写、RAG 训练 等认知任务的表现。
上手难度: 使用 OpenAI API 代码基础，从零调用 API 需要写多少适配代码。
稳定性: 实际应用中调用 API 的稳定性 (特别关注高峰期的可用性)。
生成速度: 实际应用中调用 API 的生成速度 (以 Token/秒为基准)。
提供商: 模型提供商的品牌及使用的云服务架构。
参考价格: 模型的参考价格，以人民币/百万Tokens 为单位，包含输入+输出。

评价速览

模型名称 (点击🔗查看评价)	评级	生成速度 (Token/s)	提供商 (点击🔗查看价格)
Qwen-2.5-Max	T1	8-12	阿里云百炼
yi-large 系列	T1	4-10	零一万物
GLM-4-Plus 系列	T2	5-10	智谱AI
Baichuan4	T2	10-15	百川智能
Deepseek v2.5	T3	2-4	深度求索
yi-lightning	T3	14-20	零一万物
星火认知	T4	4-8	科大讯飞
Moonshot v1	T4	5-10	月之暗面
豆包	T5	10-15	字节跳动
文心千帆	T6	4-8	百度云
腾讯混元	T6	3-5	腾讯云
帽之岛制表	T0	Hat's Land	www.hats-land.com

表格版本号：MjAyNC0xMS0wNDoyMDI0LWNoaW5hLWxsbXMtY3Jvc3NvdmVyLXJldmlldzp3d3cuaGF0cy1sYW5kLmNvbQ

价格对照

为方便读者参考，笔者在这里收集并列出了各个模型公开的价格对照表：

01.AI 零一万物

Tips

除了特殊声明外，以下价格均已包括输入和输出。

价格文档

免费额度规则

注册送 36 元余额，可抵扣所有调用。

详细价格

模型	上下文长度	特性	价格/1M token
yi-lightning	16K	高性能，推理速度快，适用于实时交互和高复杂推理场景。	¥0.99
yi-large	32K	千亿参数，超强问答及文本生成能力，适合复杂语言理解和深度内容创作。	¥20
yi-medium	16K	性能均衡，适用于日常聊天、问答、写作、翻译等通用场景。	¥2.5
yi-vision	16K	高性能视觉理解和分析，适用于图片问答、图表理解、OCR等场景。	¥6
yi-medium-200k	200K	超长上下文窗口，适用于长文本的理解和生成。	¥12
yi-spark	16K	轻量极速，强化数学运算和代码编写能力。	¥1
yi-large-rag	16K	实时全网检索，结合检索与生成技术，支持私有知识库。	¥25
yi-large-fc	32K	强化工具调用能力，适用于搭建 agent 或 workflow 的业务场景。	¥20
yi-large-turbo	16K	超高性价比，卓越性能，适用于全场景的高品质推理及文本生成。	¥12

DeepSeek

Tips

新模型 DeepSeek V2.5 不再区分 Chat 和 Coder。

为向前兼容，API 用户通过 deepseek-coder 或 deepseek-chat 均可以访问新的模型。

价格文档

模型	上下文长度	最大输出长度	输入价格（缓存命中）	输入价格（缓存未命中）	输出价格
deepseek-chat	128K	4K	0.1元/百万tokens	1元/百万tokens	2元/百万tokens

阿里云百炼

官方价格文档

免费额度规则

100万Token，免费额度有效期为180天。

详细价格

模型名称	特性描述	输入价格 (元/百万 Tokens)	输出价格 (元/百万 Tokens)
qwen-max	推理能力最强	20	60
qwen-plus	效果、速度、成本均衡	0.8	2
qwen-turbo	速度快、成本低	0.3	0.6
qwen-long	支持长达千万字文档，成本低	0.5	2

百川智能

官方价格文档

通用大模型

计费项	上下文长度	时间段	价格 (元/百万Tokens)
Baichuan4-Turbo	32k	全天	15
Baichuan4-Air	32k	全天	0.98
Baichuan4	32k	全天	100
Baichuan3-Turbo	32k	全天	12
Baichuan3-Turbo-128k	128k	全天	24
Baichuan2-Turbo	32k	全天	8
Baichuan2-53B	32k	0:00 ~ 8:00	10
		8:00 ~ 24:00	20

智谱AI

官方文档

模型	描述	上下文	最大输出
GLM-4-Plus New	高智能旗舰: 性能全面提升，长文本和复杂任务能力显著增强	128K	4K
GLM-4-0520	高智能模型：适用于处理高度复杂和多样化的任务	128K	4K
GLM-4-Long	超长输入：专为处理超长文本和记忆型任务设计	1M	4K
GLM-4-AirX	极速推理：具有超快的推理速度和强大的推理效果	8K	4K
GLM-4-Air	高性价比：推理能力和价格之间最平衡的模型	128K	4K
GLM-4-FlashX	高速低价：Flash增强版本，超快推理速度。	128K	4K
GLM-4-Flash	免费调用：智谱AI首个免费API，零成本调用大模型。	128K	4K
GLM-4-AllTools	Agent模型：自主规划和执行复杂任务	128K	4K
GLM-4	旧版旗舰：发布于2024年1月16日，目前已被GLM-4-0520取代	128K	4K

没公布价格，仅供参考。

月之暗面

官方文档

模型名称	描述	价格 (元/百万 Tokens)
moonshot-v1-8k	1M tokens	￥12.00
moonshot-v1-32k	1M tokens	￥24.00
moonshot-v1-128k	1M tokens	￥60.00

文心千帆

官方文档

模型名称	版本名称	服务内容	子项	单价
ERNIE 4.0 Turbo	ERNIE-4.0-Turbo-128K	推理服务	输入	0.12元/千tokens
			输出	0.24元/千tokens
	ERNIE-4.0-Turbo-8K	推理服务	输入	0.02元/千tokens
	ERNIE-4.0-Turbo-8K-Preview		输出	0.06元/千tokens
	ERNIE-4.0-Turbo-8K-0628
ERNIE 4.0	ERNIE-4.0-8K	推理服务	输入	0.03元/千tokens
	ERNIE-4.0-8K-0613		输出	0.09元/千tokens
	ERNIE-4.0-8K-Latest
	ERNIE-4.0-8K-Preview
ERNIE 3.5	ERNIE 3.5-128K	推理服务	输入	0.0008元/千tokens
	ERNIE 3.5-8K		输出	0.002元/千tokens
	ERNIE 3.5-8K-0701
	ERNIE 3.5-8K-Preview
	ERNIE 3.5-8K-0613
ERNIE Speed Pro	ERNIE-Speed-Pro-128K	推理服务	输入	0.0003元/千tokens
			输出	0.0006元/千tokens
ERNIE Novel	ERNIE-Novel-8K	推理服务	输入	0.04元/千tokens
			输出	0.12元/千tokens
ERNIE Speed	ERNIE-Speed-128K	推理服务	输入	免费
	ERNIE-Speed-8K		输出	免费
ERNIE Lite	ERNIE-Lite-8K	推理服务	输入	免费
			输出	免费
ERNIE Tiny	ERNIE-Tiny-8K	推理服务	输入	免费
			输出	免费
ERNIE Functions	ERNIE-Functions-8K	推理服务	输入	0.004元/千tokens
			输出	0.008元/千tokens
ERNIE Character	ERNIE-Character-Fiction-8K	推理服务	输入	0.004元/千tokens
	ERNIE-Character-8K		输出	0.008元/千tokens
ERNIE Lite Pro	ERNIE-Lite-Pro-128K	推理服务	输入	0.0002元/千tokens
			输出	0.0004元/千tokens

T0 级别 - 超越头部模型

目前还未发现能达到这一水准的国产模型，因此我们暂时不将国产模型与堪称降维打击的 OpenAI 或 Anthropic 的顶尖模型 (例如 o1-previw、claude-3.5-sonnet) 进行对比。

虽然很多国产模型在 PPT 演示中号称所谓的达到了 "同等" 甚至 "超越了" GPT-4o 的水准 ~~遥遥领先~~，但实际使用体验下来确有差距，希望在不久的将来国产模型厂商们能够啃下这块大病。

T1 级别 - 领先梯队

VGllcjE6Y29udGVudC1mcm9tOnd3dy5oYXRzLWxhbmQuY29t

这个梯队主要的特定就是成本高，对标 OpenAI 的 GPT-4 系列，相对应的是质量也很高。

Qwen-2.5-Max

认知表现：高
上手难度：低，直接兼容 OpenAI API
稳定性：阿里云核心业务，高峰期也能保持稳定调用
生成速度：8-12 Token/s, 较快
提供商：阿里云百炼
参考价格：~ 10 元/M tokens，注册送 100w Tokens 额度。

yi-large 系列

认知表现：高
上手难度：低，直接兼容 OpenAI API
稳定性：高峰期也能保持正常可用
生成速度：4-10 Token/s, 略慢
提供商：01.AI, 零一万物
参考价格：~ 20~25元/M Tokens，注册送 36 元余额。

T2 级别 - 紧随 T1

MjAyNC1jaGluYS1sbG1zLWNyb3Nzb3Zlci1yZXZpZXcgLSBoYXRzLWxhbmQuY29t

T2 梯队能力本质上其实和 T1 差不多，区别主要是上手难度和稳定性。

GLM-4-Plus 系列

认知表现：质量尚可，但由于 API 上手难度高因此被归类为 T2。
上手难度：高，v1 和 v4 版本间差异较大，v1 不兼容 OpenAI API。
稳定性：中
生成速度：5-10 Token/s
提供商：智谱AI
参考价格：单价 5 元/M Tokens，但是资源包活动较多，参考性不大。

百川智能 Baichuan4

认知表现：基础对话和代码生成能力尚可，但是上下文只有 32K，实属不太够用
上手难度：低，直接兼容 OpenAI API
稳定性：中
生成速度：10-15 Token/s
提供商：百川智能
参考价格：10 元/M Tokens，注册送 80 元余额。

T3 级别 - 性价比模型

Y29weXJpZ2h0IC0gaGF0cy1sYW5kLmNvbQ

这个梯队的模型主要是对标 GPT-3-Turbo 系列，价格较低，但由于其综合能力较弱，因此被归类到 T3。

Deepseek v2.5

认知表现：对代码生成的能力较高，但日常聊天能力较差
上手难度：低，直接兼容 OpenAI API
稳定性：非常差，没有针对账号的速率限制，高峰期纯纯 GPU 竞技场
生成速度：2-4 Token/s，较慢
提供商：Deepseek, 深度求索
参考价格：3 元/M Tokens，注册送 500 万 Token。

零一万物 yi-lightning

认知表现：对话流畅，能力适中
上手难度：低，直接兼容 OpenAI API
稳定性：高峰期也能保持正常可用
生成速度：14-20 Token/s，非常快
提供商：01.AI, 零一万物
参考价格：0.99 元/M Tokens，注册送 36 元余额。

T4 级别 - 仍需改进

讯飞星火认知

锐评：国内入局较早，但是投入不多，也算是烂尾了，用来家教倒是还够用吧。

认知表现：就只有基础对话能力
上手难度：高，不兼容 OpenAI API
稳定性：低
生成速度：4-8 Token/s
提供商：科大讯飞
参考价格：前 1 亿 Tokens 免费，需要同意数据将被用于训练。

Moonshot v1

锐评：也就是天天广告宣发的 "Kimi"，评价是经费全拿来宣发了，模型做的一托。

认知表现：对话流畅度还行，代码生成准确率一般，还蛮贵的
上手难度：低，直接兼容 OpenAI API
稳定性：中
生成速度：5-10 Token/s
提供商：Moonshot AI
参考价格：12~60 元/M Tokens，注册送 15 元余额。

T5 级别 - 不太能看

字节豆包

锐评：新时代 BAT (字节阿里腾讯) 之一，投入资金很多，但是表现有点不尽人意。

认知表现：基础对话勉强可用，专业任务表现差
上手难度：高，接口调用比较复杂
稳定性：中
生成速度：10-15 Token/s
提供商：字节跳动
参考价格：前 1 亿 Tokens 免费，需要同意数据将被用于训练。

T6 级别 - 重量级选手

百度文心千帆

锐评：废物中的废物，产品线繁杂冗余、不知所以；质量低下、性能差劲，不推荐使用。唯一的优点：由于百度在国际业务中完全没有任何竞争力，因此不太可能会被列入美国商务部的实体清单。

认知表现：对话理解存在较大的偏差，代码生成质量较低
上手难度：文档不完整
稳定性：低
生成速度：4-8 Token/s
提供商：百度云千帆
参考价格：6~12 元/M Tokens，注册送 100 万 Token。

腾讯混元

锐评：BAT 阵营中入局最晚、投入最少、表现最差的一个。

认知表现：基础功能不完善，连 JSON 格式都能搞错。
上手难度：文档不完整
稳定性：中
生成速度：3-5 Token/s
提供商：腾讯云
参考价格：前100万 Tokens 免费，需要同意数据将被用于训练。

未参与排名

360 智脑：这玩意，不予评价。

总结

从整体来看，国产大语言模型正在快速发展，但与国际尖端水平相比仍有差距，阿里、零一万物等头部企业的产品已经展现出不错的实力，但在易用性、稳定性等方面还有很长一段路要走，期待未来能看到更多高质量的国产模型涌现。

注：本评测基于个人使用体验，仅供参考。

版权声明

All content on this blog are original unless otherwise stated.
If you wish to repost a blog post, please include a link to the original source. 
Reposts MUST NOT be modified, FOR ANY COMMERCIAL USE, PLEASE CONTACT AT contact#hats-land.com.

版权信息 (点击展开)

Copyright (c) @ Hat's Blog www.hats-land.com
Released Date @ 2024-10-01, '/archives/skills/2024-china-llms-crossover-review'
GPG Signature: 'https://www.hats-land.com/gpg-public.txt' (F166C5F4F897B96A07390B8574E3D911A0E70FEC)

2024 年国产大语言 AI 模型主观横评 ​

笔者序 ​

分级标准说明 ​

评价速览 ​

价格对照 ​

01.AI 零一万物 ​

免费额度规则 ​

详细价格 ​

DeepSeek ​

阿里云百炼 ​

免费额度规则 ​

详细价格 ​

百川智能 ​

通用大模型 ​

智谱AI ​

月之暗面 ​

文心千帆 ​

T0 级别 - 超越头部模型 ​

T1 级别 - 领先梯队 ​

Qwen-2.5-Max ​

yi-large 系列 ​

T2 级别 - 紧随 T1 ​

GLM-4-Plus 系列 ​

百川智能 Baichuan4 ​

T3 级别 - 性价比模型 ​

Deepseek v2.5 ​

零一万物 yi-lightning ​

T4 级别 - 仍需改进 ​

讯飞星火认知 ​

Moonshot v1 ​

T5 级别 - 不太能看 ​

字节豆包 ​

T6 级别 - 重量级选手 ​

百度文心千帆 ​

腾讯混元 ​

未参与排名 ​

总结 ​

版权声明 ​

2024 年国产大语言 AI 模型主观横评

笔者序

分级标准说明

评价速览

价格对照

01.AI 零一万物

免费额度规则

详细价格

DeepSeek

阿里云百炼

免费额度规则

详细价格

百川智能

通用大模型

智谱AI

月之暗面

文心千帆

T0 级别 - 超越头部模型

T1 级别 - 领先梯队

Qwen-2.5-Max

yi-large 系列

T2 级别 - 紧随 T1

GLM-4-Plus 系列

百川智能 Baichuan4

T3 级别 - 性价比模型

Deepseek v2.5

零一万物 yi-lightning

T4 级别 - 仍需改进

讯飞星火认知

Moonshot v1

T5 级别 - 不太能看

字节豆包

T6 级别 - 重量级选手

百度文心千帆

腾讯混元

未参与排名

总结

版权声明