2024 年国产大语言 AI 模型主观横评
本文关键词:国产大语言模型实测
国产大语言模型在认知任务上的表现如何?
国产大语言模型在实际应用中的表现如何?
如何看待国产大语言模型的未来发展趋势?
字节豆包,百度文心千帆,腾讯混元,月之暗面,讯飞星火,智谱清言 GLM-4-Plus,百川智能 Baichuan4,零一万物 yi-large,阿里百炼千问 Qwen-2.5-Max,深度求索 Deepseek v2.5
本文目录 点击展开
RefID: Q29weS1yaWdodDphcmNoaXZlcy9za2lsbHMvMjAyNC1jaGluYS1sbG1zLWNyb3Nzb3Zlci1yZXZpZXc6d3d3LmhhdHMtbGFuZC5jb20
本文配图 点击展开
c2ltcGxlLWV4cGxhbmF0aW9uLW9mLXNzNy1hdHRhY2tzIHwgYmFubmVyIHwgSW1hZ2UgfCAyMDI0MTAwOA
笔者序
随着人工智能技术的飞速发展,大语言模型(LLM)已经成为日常生活中不可或缺的一部分,而我最近也在使用国产大语言模型完成部分 AI 业务的落地工作,接触了一些已通过 国家算法备案 国内合规的大语言模型提供商。
正好有些朋友对这方面也有兴趣,所以想在这里为各位读者分享一下笔者这段时间的使用体验和亲身感受,对当前主流的国产大语言模型进行一次自认为片面且主观的横评,供各位读者参考,也欢迎各位读者在本文底部的评论区中指出不足。
分级标准说明
叠甲声明
注:本评测基于个人使用体验,全文无广告,没有出于任何商业目的,如需转载,请参阅 版权声明。
不同场景下的表现可能会有所差异,模型也可能随着时间的推移而有所改进。
笔者平时使用 LLM 的用途主要以 RAG 增强训练和微调模型为主,因此对于代码撰写和连续对话等认知性任务的表现会有所偏重。
在进行横向比较之前,让我们先明确一下评测标准:本文采用 T0-T6 七个等级进行划分,其中 T0 为最高等级,T6 为最低等级,使用体验逐级递减。
本文主要聚焦各个厂家的旗舰模型和次旗舰模型,一些小众产品线可能没考虑到,但是足以看得出厂商的大概阶梯。
评分主要以主观体验为中心,大概列出以下几个参考维度:
认知表现
: 模型对日常聊天
、代码撰写
、RAG 训练
等认知任务的表现。上手难度
: 使用 OpenAI API 代码基础,从零调用 API 需要写多少适配代码。稳定性
: 实际应用中调用 API 的稳定性 (特别关注高峰期的可用性)。生成速度
: 实际应用中调用 API 的生成速度 (以 Token/秒 为基准)。提供商
: 模型提供商的品牌及使用的云服务架构。参考价格
: 模型的参考价格,以 人民币/百万Tokens 为单位,包含输入+输出。
评价速览
模型名称 (点击🔗查看评价) | 评级 | 生成速度 (Token/s) | 提供商 (点击🔗查看价格) |
---|---|---|---|
Qwen-2.5-Max | T1 | 8-12 | 阿里云百炼 |
yi-large 系列 | T1 | 4-10 | 零一万物 |
GLM-4-Plus 系列 | T2 | 5-10 | 智谱AI |
Baichuan4 | T2 | 10-15 | 百川智能 |
Deepseek v2.5 | T3 | 2-4 | 深度求索 |
yi-lightning | T3 | 14-20 | 零一万物 |
星火认知 | T4 | 4-8 | 科大讯飞 |
Moonshot v1 | T4 | 5-10 | 月之暗面 |
豆包 | T5 | 10-15 | 字节跳动 |
文心千帆 | T6 | 4-8 | 百度云 |
腾讯混元 | T6 | 3-5 | 腾讯云 |
帽之岛 制表 | T0 | Hat's Land | www.hats-land.com |
表格版本号:MjAyNC0xMS0wNDoyMDI0LWNoaW5hLWxsbXMtY3Jvc3NvdmVyLXJldmlldzp3d3cuaGF0cy1sYW5kLmNvbQ
价格对照
为方便读者参考,笔者在这里收集并列出了各个模型公开的价格对照表:
01.AI 零一万物
Tips
除了特殊声明外,以下价格均已包括输入和输出。
免费额度规则
注册送 36 元余额,可抵扣所有调用。
详细价格
模型 | 上下文长度 | 特性 | 价格/1M token |
---|---|---|---|
yi-lightning | 16K | 高性能,推理速度快,适用于实时交互和高复杂推理场景。 | ¥0.99 |
yi-large | 32K | 千亿参数,超强问答及文本生成能力,适合复杂语言理解和深度内容创作。 | ¥20 |
yi-medium | 16K | 性能均衡,适用于日常聊天、问答、写作、翻译等通用场景。 | ¥2.5 |
yi-vision | 16K | 高性能视觉理解和分析,适用于图片问答、图表理解、OCR等场景。 | ¥6 |
yi-medium-200k | 200K | 超长上下文窗口,适用于长文本的理解和生成。 | ¥12 |
yi-spark | 16K | 轻量极速,强化数学运算和代码编写能力。 | ¥1 |
yi-large-rag | 16K | 实时全网检索,结合检索与生成技术,支持私有知识库。 | ¥25 |
yi-large-fc | 32K | 强化工具调用能力,适用于搭建 agent 或 workflow 的业务场景。 | ¥20 |
yi-large-turbo | 16K | 超高性价比,卓越性能,适用于全场景的高品质推理及文本生成。 | ¥12 |
DeepSeek
Tips
新模型 DeepSeek V2.5 不再区分 Chat 和 Coder。
为向前兼容,API 用户通过 deepseek-coder 或 deepseek-chat 均可以访问新的模型。
模型 | 上下文长度 | 最大输出长度 | 输入价格(缓存命中) | 输入价格(缓存未命中) | 输出价格 |
---|---|---|---|---|---|
deepseek-chat | 128K | 4K | 0.1元/百万tokens | 1元/百万tokens | 2元/百万tokens |
阿里云百炼
免费额度规则
100万Token,免费额度有效期为180天。
详细价格
模型名称 | 特性描述 | 输入价格 (元/百万 Tokens) | 输出价格 (元/百万 Tokens) |
---|---|---|---|
qwen-max | 推理能力最强 | 20 | 60 |
qwen-plus | 效果、速度、成本均衡 | 0.8 | 2 |
qwen-turbo | 速度快、成本低 | 0.3 | 0.6 |
qwen-long | 支持长达千万字文档,成本低 | 0.5 | 2 |
百川智能
通用大模型
计费项 | 上下文长度 | 时间段 | 价格 (元/百万Tokens) | 备注 |
---|---|---|---|---|
Baichuan4-Turbo | 32k | 全天 | 15 | |
Baichuan4-Air | 32k | 全天 | 0.98 | |
Baichuan4 | 32k | 全天 | 100 | |
Baichuan3-Turbo | 32k | 全天 | 12 | |
Baichuan3-Turbo-128k | 128k | 全天 | 24 | |
Baichuan2-Turbo | 32k | 全天 | 8 | |
Baichuan2-53B | 32k | 0:00 ~ 8:00 | 10 | |
8:00 ~ 24:00 | 20 |
智谱AI
模型 | 描述 | 上下文 | 最大输出 |
---|---|---|---|
GLM-4-Plus New | 高智能旗舰: 性能全面提升,长文本和复杂任务能力显著增强 | 128K | 4K |
GLM-4-0520 | 高智能模型:适用于处理高度复杂和多样化的任务 | 128K | 4K |
GLM-4-Long | 超长输入:专为处理超长文本和记忆型任务设计 | 1M | 4K |
GLM-4-AirX | 极速推理:具有超快的推理速度和强大的推理效果 | 8K | 4K |
GLM-4-Air | 高性价比:推理能力和价格之间最平衡的模型 | 128K | 4K |
GLM-4-FlashX | 高速低价:Flash增强版本,超快推理速度。 | 128K | 4K |
GLM-4-Flash | 免费调用:智谱AI首个免费API,零成本调用大模型。 | 128K | 4K |
GLM-4-AllTools | Agent模型:自主规划和执行复杂任务 | 128K | 4K |
GLM-4 | 旧版旗舰:发布于2024年1月16日,目前已被GLM-4-0520取代 | 128K | 4K |
没公布价格,仅供参考。
月之暗面
模型名称 | 描述 | 价格 (元/百万 Tokens) |
---|---|---|
moonshot-v1-8k | 1M tokens | ¥12.00 |
moonshot-v1-32k | 1M tokens | ¥24.00 |
moonshot-v1-128k | 1M tokens | ¥60.00 |
文心千帆
模型名称 | 版本名称 | 服务内容 | 子项 | 单价 |
---|---|---|---|---|
ERNIE 4.0 Turbo | ERNIE-4.0-Turbo-128K | 推理服务 | 输入 | 0.12元/千tokens |
输出 | 0.24元/千tokens | |||
ERNIE-4.0-Turbo-8K | 推理服务 | 输入 | 0.02元/千tokens | |
ERNIE-4.0-Turbo-8K-Preview | 输出 | 0.06元/千tokens | ||
ERNIE-4.0-Turbo-8K-0628 | ||||
ERNIE 4.0 | ERNIE-4.0-8K | 推理服务 | 输入 | 0.03元/千tokens |
ERNIE-4.0-8K-0613 | 输出 | 0.09元/千tokens | ||
ERNIE-4.0-8K-Latest | ||||
ERNIE-4.0-8K-Preview | ||||
ERNIE 3.5 | ERNIE 3.5-128K | 推理服务 | 输入 | 0.0008元/千tokens |
ERNIE 3.5-8K | 输出 | 0.002元/千tokens | ||
ERNIE 3.5-8K-0701 | ||||
ERNIE 3.5-8K-Preview | ||||
ERNIE 3.5-8K-0613 | ||||
ERNIE Speed Pro | ERNIE-Speed-Pro-128K | 推理服务 | 输入 | 0.0003元/千tokens |
输出 | 0.0006元/千tokens | |||
ERNIE Novel | ERNIE-Novel-8K | 推理服务 | 输入 | 0.04元/千tokens |
输出 | 0.12元/千tokens | |||
ERNIE Speed | ERNIE-Speed-128K | 推理服务 | 输入 | 免费 |
ERNIE-Speed-8K | 输出 | 免费 | ||
ERNIE Lite | ERNIE-Lite-8K | 推理服务 | 输入 | 免费 |
输出 | 免费 | |||
ERNIE Tiny | ERNIE-Tiny-8K | 推理服务 | 输入 | 免费 |
输出 | 免费 | |||
ERNIE Functions | ERNIE-Functions-8K | 推理服务 | 输入 | 0.004元/千tokens |
输出 | 0.008元/千tokens | |||
ERNIE Character | ERNIE-Character-Fiction-8K | 推理服务 | 输入 | 0.004元/千tokens |
ERNIE-Character-8K | 输出 | 0.008元/千tokens | ||
ERNIE Lite Pro | ERNIE-Lite-Pro-128K | 推理服务 | 输入 | 0.0002元/千tokens |
输出 | 0.0004元/千tokens |
T0 级别 - 超越头部模型
目前还未发现能达到这一水准的国产模型,因此我们暂时不将国产模型与堪称降维打击的 OpenAI 或 Anthropic 的顶尖模型 (例如 o1-previw、claude-3.5-sonnet) 进行对比。
虽然很多国产模型在 PPT 演示中号称所谓的达到了 "同等" 甚至 "超越了" GPT-4o 的水准 遥遥领先,但实际使用体验下来确有差距,希望在不久的将来国产模型厂商们能够啃下这块大病。
T1 级别 - 领先梯队
VGllcjE6Y29udGVudC1mcm9tOnd3dy5oYXRzLWxhbmQuY29t
这个梯队主要的特定就是成本高,对标 OpenAI 的 GPT-4
系列,相对应的是质量也很高。
Qwen-2.5-Max
- 认知表现:高
- 上手难度:低,直接兼容 OpenAI API
- 稳定性:阿里云核心业务,高峰期也能保持稳定调用
- 生成速度:8-12 Token/s, 较快
- 提供商:阿里云百炼
- 参考价格:~ 10 元/M tokens,注册送 100w Tokens 额度。
yi-large 系列
- 认知表现:高
- 上手难度:低,直接兼容 OpenAI API
- 稳定性:高峰期也能保持正常可用
- 生成速度:4-10 Token/s, 略慢
- 提供商:01.AI, 零一万物
- 参考价格:~ 20~25元/M Tokens,注册送 36 元余额。
T2 级别 - 紧随 T1
MjAyNC1jaGluYS1sbG1zLWNyb3Nzb3Zlci1yZXZpZXcgLSBoYXRzLWxhbmQuY29t
T2 梯队能力本质上其实和 T1 差不多,区别主要是上手难度和稳定性。
GLM-4-Plus 系列
- 认知表现:质量尚可,但由于 API 上手难度高因此被归类为 T2。
- 上手难度:高,v1 和 v4 版本间差异较大,v1 不兼容 OpenAI API。
- 稳定性:中
- 生成速度:5-10 Token/s
- 提供商:智谱AI
- 参考价格:单价 5 元/M Tokens,但是资源包活动较多,参考性不大。
百川智能 Baichuan4
- 认知表现:基础对话和代码生成能力尚可,但是上下文只有 32K,实属不太够用
- 上手难度:低,直接兼容 OpenAI API
- 稳定性:中
- 生成速度:10-15 Token/s
- 提供商:百川智能
- 参考价格:10 元/M Tokens,注册送 80 元余额。
T3 级别 - 性价比模型
Y29weXJpZ2h0IC0gaGF0cy1sYW5kLmNvbQ
这个梯队的模型主要是对标 GPT-3-Turbo 系列,价格较低,但由于其综合能力较弱,因此被归类到 T3。
Deepseek v2.5
- 认知表现:对代码生成的能力较高,但日常聊天能力较差
- 上手难度:低,直接兼容 OpenAI API
- 稳定性:非常差,没有针对账号的速率限制,高峰期纯纯 GPU 竞技场
- 生成速度:2-4 Token/s,较慢
- 提供商:Deepseek, 深度求索
- 参考价格:3 元/M Tokens,注册送 500 万 Token。
零一万物 yi-lightning
- 认知表现:对话流畅,能力适中
- 上手难度:低,直接兼容 OpenAI API
- 稳定性:高峰期也能保持正常可用
- 生成速度:14-20 Token/s,非常快
- 提供商:01.AI, 零一万物
- 参考价格:0.99 元/M Tokens,注册送 36 元余额。
T4 级别 - 仍需改进
讯飞星火认知
锐评:国内入局较早,但是投入不多,也算是烂尾了,用来家教倒是还够用吧。
- 认知表现:就只有基础对话能力
- 上手难度:高,不兼容 OpenAI API
- 稳定性:低
- 生成速度:4-8 Token/s
- 提供商:科大讯飞
- 参考价格:前 1 亿 Tokens 免费,需要同意数据将被用于训练。
Moonshot v1
锐评:也就是天天广告宣发的 "Kimi",评价是经费全拿来宣发了,模型做的一托。
- 认知表现:对话流畅度还行,代码生成准确率一般,还蛮贵的
- 上手难度:低,直接兼容 OpenAI API
- 稳定性:中
- 生成速度:5-10 Token/s
- 提供商:Moonshot AI
- 参考价格:12~60 元/M Tokens,注册送 15 元余额。
T5 级别 - 不太能看
字节豆包
锐评:新时代 BAT (字节阿里腾讯) 之一,投入资金很多,但是表现有点不尽人意。
- 认知表现:基础对话勉强可用,专业任务表现差
- 上手难度:高,接口调用比较复杂
- 稳定性:中
- 生成速度:10-15 Token/s
- 提供商:字节跳动
- 参考价格:前 1 亿 Tokens 免费,需要同意数据将被用于训练。
T6 级别 - 重量级选手
百度文心千帆
锐评:废物中的废物,产品线繁杂冗余、不知所以;质量低下、性能差劲,不推荐使用。 唯一的优点:由于百度在国际业务中完全没有任何竞争力,因此不太可能会被列入美国商务部的实体清单。
- 认知表现:对话理解存在较大的偏差,代码生成质量较低
- 上手难度:文档不完整
- 稳定性:低
- 生成速度:4-8 Token/s
- 提供商:百度云千帆
- 参考价格:6~12 元/M Tokens,注册送 100 万 Token。
腾讯混元
锐评:BAT 阵营中入局最晚、投入最少、表现最差的一个。
- 认知表现:基础功能不完善,连 JSON 格式都能搞错。
- 上手难度:文档不完整
- 稳定性:中
- 生成速度:3-5 Token/s
- 提供商:腾讯云
- 参考价格:前100万 Tokens 免费,需要同意数据将被用于训练。
未参与排名
- 360 智脑:这玩意,不予评价。
总结
从整体来看,国产大语言模型正在快速发展,但与国际尖端水平相比仍有差距,阿里、零一万物等头部企业的产品已经展现出不错的实力,但在易用性、稳定性等方面还有很长一段路要走,期待未来能看到更多高质量的国产模型涌现。
注:本评测基于个人使用体验,仅供参考。
版权声明
All content on this blog are original unless otherwise stated.
If you wish to repost a blog post, please include a link to the original source.
Reposts MUST NOT be modified, FOR ANY COMMERCIAL USE, PLEASE CONTACT AT contact#hats-land.com.
版权信息 (点击展开)
Copyright (c) @ Hat's Blog www.hats-land.com
Released Date @ 2024-10-01, '/archives/skills/2024-china-llms-crossover-review'
GPG Signature: 'https://www.hats-land.com/gpg-public.txt' (F166C5F4F897B96A07390B8574E3D911A0E70FEC)
-----BEGIN PGP MESSAGE-----
hF4DYvdQZ6S+TycSAQdAmvEtdapy94wX/VdbsHMVvu4cTof5IEUuHWSG6DBZvmsw
fLICuGV8Favj84Xz1xBD07hYlkU2Nab/XZwmZhWo49Xs4Smu6o8380VeE0mjSDhL
1MB7AQkCEI8k6olNHurciGRs8hO+a/MB5JvZ+A5f3tsT5dWidvBYCpma2w3q3vUG
OWB5Hop6B52i0o9whLmey7dyw0FKlvCY3yWTylM06e1KSyakkczzP+XwBz3T/Nkk
xb/AyRArl1HDxwJI65KAkHPrOojDv4rPVmzkq468R+FP38GhyLJl/21Y7wu2WlXi
MjOdxSyNNMbHYv9nUHawrkGTaLQOSbwGhdpruczvVTj6FIg+fklvDSGNrXDVIE98
FgHo5uWAfiEYR1iq8BR9rJLCn4tWgrkBIKvPMeqsx/q3Xa0JWkYwBZRgrTPpLEDI
pj8OpP/QDYiUeU+xmAHPtz5mb8kTYg7+rdotDnPFbzYpRyxGvC8Ag2kaWgA5SccJ
Xb3Tv/o3jEio54lxihQ5s+R/FQCM1lT97ob4NufB
=DjSC
-----END PGP MESSAGE-----