近日,MathEval大模型数学能力权威测评基准正式亮相,对全球范围内30个大模型进行了全面评估。学而思旗下的九章大模型在此次测评中脱颖而出,勇夺冠军宝座。

MathEval测评基准由智慧教育国家新一代人工智能开放创新平台携手多所知名高校共同创立,旨在全面评估大模型在数学领域的解题能力。该基准涵盖了19个数学领域的测评集,包含近3万道数学题目,全面检验大模型在算术、中小学竞赛以及部分高等数学分支等各阶段、难度和数学子领域的表现。
随着大模型在数学应用领域的广泛应用,对数学能力的全面评估变得愈发重要。然而,行业内一直缺乏一个能够覆盖各国主流通用大模型和垂类模型的数学能力测评榜单。MathEval的及时上线填补了这一行业空白,为大模型领域在数学能力上的探索提升提供了有价值的参考。

在对大模型进行数学能力测评的过程中,存在一些行业难点。首先,各数据集的字段需要保持一致,同时每个大模型也需要有相应的Prompt模板和答案形式。为了实现统一的测试和对比,测评基准需要设计出符合需求的抽取打分规则,从模型输出的内容中批量抽取出可对比的答案。这对专业能力的要求极高,稍有不慎就可能影响最终的测评结果。其次,要让测评榜单具备足够的可参考性,就需要运用丰富且全面的数据集,尽量覆盖市面上的大模型。这对测评方的算力也提出了较高要求。
在评测过程中,MathEval团队还采用了GPT4大模型进行答案抽取和匹配,以减少基于规则进行评测的误差。同时,针对每个模型的Prompt模板进行了适配,以激发模型的最佳表现。截至目前,MathEval已对30个大模型进行了测试,包括同一模型的不同版本。未来,随着更多新模型的加入,榜单也将不断更新。
从MathEval发布的测评榜单来看,学而思旗下的九章大模型在综合表现以及中文、英文、各学段子榜单中均展现出了强大的实力。作为专注于数学解题和讲题能力的大模型,九章大模型的出色表现可谓实至名归。此外,国产通用大模型如文心一言4.0和讯飞星火V3.5也在测评中取得了亮眼成绩,排名仅次于九章大模型,甚至在某些方面优于国际知名的GPT-4。这充分展示了国产大模型在数学领域的强劲实力。

展望未来,期待国产大模型能够不断提升数学能力,并在更多应用场景中实现落地。让我们拭目以待这一领域的更多突破与创新!