出品|开源中国
继 6 月发布了 7B 预训练底座模型后,百川智能团队于近日最新开源了 13B 模型,包括预训练底座模型 Baichuan-13B-Base 和 chat 对齐模型 Baichuan-13B-Chat,同时支持商用。
目前为止中文社区已经陆续发布了大量的开源模型,主要集中在 6B-13B 之间。
那么百川开源的这个模型相对于其他国内外有代表性的模型表现怎么样,比如与 ChatGPT3.5 有多大差距;与国内代表性的开源模型相比是什么水平;在一些比较受关注的能力上,如生成与创作、逻辑推理、代码生成,表现如何?
中文语言理解测评基准开源社区 CLUE 基于 SuperCLUE-Open 测评基准,也就是在开放式的问题并结合多轮对话能力的测试,用 1200 道题对 Baichuan-13B-Chat 进行了测评。
测评结果如下:

结论
1. 目前是中文百亿参数最好的模型吗?
目前认为对于同等量级开源模型 ,在 SuperCLUE 开放式多轮测评上 Baichuan-13B-Chat 是最好的开源模型。
2. 与 ChatGPT3.5 接近了吗?
与 ChatGPT3.5 比较,在 SuperCLUE 开放式多轮测评的常见任务中,如生成与创作、角色扮演、上下文对话、知识与百科,效果与 ChatGPT3.5 及 Claude 基础版相比是接近的(详见定量分析),但在复杂任务上,如代码生成、数学计算、逻辑与推理,还存在比较大的进步空间。
以下是从定量角度对模型进行的测评分析。
定量分析
- SuperCLUE-Open(开放式多轮测评):

- SuperCLUE-Open(开放式多轮测评)十大能力:以 Baichuan-13B-Chat 为例

可以看到,在 SuperCLUE 开放式多轮测评基准的十大能力评估中,百川开源大模型 Baichuan-13B 在多个能力上具有较好的表现(以胜和率为指标),部分任务有比较大的改进空间。