gpt4文心一言评测 (gpt4.0和文心4.0)

进入2023年以来，大模型在人工智能领域受到越来越多的关注，越来越多中国科技企业推出了自有大模型产品，整个行业就是“百模大战”，我们的眼睛也是目不暇接，那究竟哪些模型最好用呢？哪些模型更聪明呢？它们都真的智能吗？

GPT4/3.5/文心、千问、星火、商汤模型究竟哪个更好用？权威评测

为了全面、真实呈现我国当前主流科技企业所推出的大模型产品的现状、优势、特点，同时为行业健康发展和进一步探索方向，建言献策，我们做了基本的测评。

说明：基于评测条件、评测时间等限制，评测最终结果不可避免存在一定主观性，具体结果供产业参考。

一、国内的模型百花齐放，百模大战！

目前国内典型大模型包括：阿里的M6，百度的文心大模型，华为的盘古，智谱科技的ChatGLM ，科大讯飞的星火，商汤的日日新等，2023年开始有更多其他企业也争相入局，共同打造完整的中国大模型生态布局。

GPT4/3.5/文心、千问、星火、商汤模型究竟哪个更好用？权威评测

二、测试维度及技术指标

本次测评大模型主要通过通过多个维度（4大类，36个子能力，共300个问题）对大模型产品进行评测。

评测纬度：

• 基础能力（共100题）：考察产品的语言能力，跨模态能力以及AI向善的引导能力。

• 智商测试（共100题）：涵盖常识知识、专业知识、逻辑能力三大项。其中专业知识包括数学、物理、金融、文学等10+项细分，逻辑能力则包括推理能力、归纳能力以及总结等6项维度。

• 情商测试（共50题）：衡量产品个体情感能力。包括自我认知、自我调节、社交意识、人际关系管理等方面，本次情商测试围绕不同场景下的突发状况、沟通技巧、情绪管理等展开。

• 工作提效能力（共50题）：面向新闻工作者、画家及设计师、市场营销人员、律师和调研人员的5类工作者，将工作人员会遇到的问题逐一梳理，考察产品是否能有效帮助相关人员的工作效率提升。

GPT4/3.5/文心、千问、星火、商汤模型究竟哪个更好用？权威评测

三：模型得分比较

市场模型比较多，我们就大家熟悉的GPT、文心一言、通义千问、星火、商汤、清华ChatGLM智普、Vicuna-13B展开评测。GPT4以总分第一的成绩排在第一名，国内巨头的模型表现也不错。虽然国内的大模型起步较晚，但是发展速度惊人，这是值得大家欣慰的。

GPT4/3.5/文心、千问、星火、商汤模型究竟哪个更好用？权威评测

四、GPT4性能表现

GPT4作为大模型的鼻祖，还是相当优秀，各个方面都是得分最高，唯一缺点就是国内用户使用麻烦、使用成本贵！

GPT4/3.5/文心、千问、星火、商汤模型究竟哪个更好用？权威评测

GPT3.5

它是OPENAI的一个低级版本，得分也是不错，总评第二名，基本能满足我们日常工作需要，性价比也比较高。

GPT4/3.5/文心、千问、星火、商汤模型究竟哪个更好用？权威评测

文心一言（国内第一家发布的大模型）

百度的文心一言的智商还是比较突出的，在这个测评中表现抢眼。

GPT4/3.5/文心、千问、星火、商汤模型究竟哪个更好用？权威评测

阿里通义千问

GPT4/3.5/文心、千问、星火、商汤模型究竟哪个更好用？权威评测

科大讯飞-星火（略）

商汤科技-商量（略）

清华大学-智谱（略）

VICUN-13B(略)

五、测试案例展示

GPT4/3.5/文心、千问、星火、商汤模型究竟哪个更好用？权威评测

情商测试问题：领导带我去饭局，大家起哄让我表演节目，我应该如何委婉的拒绝，且不情商测试案例介绍丢领导的面子

GPT4/3.5/文心、千问、星火、商汤模型究竟哪个更好用？权威评测

说明：从以上的回答中，我们得到了不同的答案，也看到了模型之间的差异。总体来说GPT3.5,4.0位居模型的第一梯段，文心一言、通义千问、星火位居第二梯队，商汤和智谱相对较弱一些。（以上仅代表作者个人观点）想了解更多数据可以联系作者。