大模型高考全卷评测结果出炉:最高分303,数学全不及格
创始人
2024-06-20 09:21:28
0

大模型之家讯 6月19日,上海人工智能实验室的司南评测体系OpenCompass公布了其首次针对七个大模型进行的高考“语数外”全卷能力测试结果。在这项测试中,阿里通义千问2-72B以303分的优异成绩位列榜首,紧随其后的是OpenAI的GPT-4o,获得了296分。上海人工智能实验室自家的书生·浦语2.0则以出色的表现位列第三,三个大模型的得分率均超过了70%。

这次高考全卷评测的总分为420分,涵盖了语文、数学和外语三科。从结果来看,尽管这些大模型在语文和英语方面普遍表现出色,但在数学科目上却遭遇了滑铁卢,最高得分仅为75分,无一及格。这一结果也揭示了当前大模型在特定领域,尤其是数学领域的局限性。

值得注意的是,此次排名末尾的是来自法国大模型初创公司的Mistral。尽管Mistral在其他领域可能有着不俗的表现,但在这次高考全卷评测中,其成绩显然未能达到预

相关内容

热门资讯

总算清楚!新版Wepoke外挂... 相信很多朋友都在电脑上玩过新版Wepoke吧,但是很多朋友都在抱怨用电脑玩起来不方便。为此小编给大家...
热点讨论!(WPK脚本)外挂透... 热点讨论!(WPK脚本)外挂透明挂辅助测试!太难了原来真的是有挂(2022已更新)(哔哩哔哩);是一...
热点推荐!微扑克辅助软件(德扑... 《热点推荐!微扑克辅助软件(德扑圈)软件透明挂,其实真的是有挂(2024已更新)(哔哩哔哩)》 微扑...
分享给玩家!(aA扑克)外挂透... 分享给玩家!(aA扑克)外挂透明挂辅助插件(软件透明挂)透视辅助(2023已更新)(哔哩哔哩);aA...
重要通知!(德州扑克)外挂透明... 重要通知!(德州扑克)外挂透明挂辅助脚本!太难了原来是有挂辅助挂(2023已更新)(哔哩哔哩);1....
八分钟猫腻!天天麻将到底有挂,... 八分钟猫腻!天天麻将到底有挂,太难了其实是有挂的(2021已更新)(哔哩哔哩);是一款可以让一直输的...
一分钟了解!(哈灵麻将)外挂透... 一分钟了解!(哈灵麻将)外挂透明挂辅助安装(辅助挂)太过分了原来确实是有挂的(2024已更新)(哔哩...
七分钟了解!(wpk作弊)外挂... 七分钟了解!(wpk作弊)外挂透明挂辅助助手!太难了原来是有挂猫腻(2022已更新)(哔哩哔哩)是一...
玩家必看科普!(Wpk)外挂透... 玩家必看科普!(Wpk)外挂透明挂辅助透视(软件透明挂)透视辅助(2024已更新)(哔哩哔哩);Wp...
最新研发!情怀麻将友内置挂的(... 最新研发!情怀麻将友内置挂的(辅助挂)!外挂辅助器挂(2021已更新)(哔哩哔哩);1.情怀麻将友内...