大模型高考全卷评测结果出炉:最高分303,数学全不及格
创始人
2024-06-20 09:21:28
0

大模型之家讯 6月19日,上海人工智能实验室的司南评测体系OpenCompass公布了其首次针对七个大模型进行的高考“语数外”全卷能力测试结果。在这项测试中,阿里通义千问2-72B以303分的优异成绩位列榜首,紧随其后的是OpenAI的GPT-4o,获得了296分。上海人工智能实验室自家的书生·浦语2.0则以出色的表现位列第三,三个大模型的得分率均超过了70%。

这次高考全卷评测的总分为420分,涵盖了语文、数学和外语三科。从结果来看,尽管这些大模型在语文和英语方面普遍表现出色,但在数学科目上却遭遇了滑铁卢,最高得分仅为75分,无一及格。这一结果也揭示了当前大模型在特定领域,尤其是数学领域的局限性。

值得注意的是,此次排名末尾的是来自法国大模型初创公司的Mistral。尽管Mistral在其他领域可能有着不俗的表现,但在这次高考全卷评测中,其成绩显然未能达到预

相关内容

热门资讯

华宝新能获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示华宝新能(301327)新获得一项实用新型专利授权,专利名为“...
100%内存涨幅苹果照单全收 ... 据韩国方面的消息称,苹果已经搞定了新一季度的内存供货协议,在2026年上半年的供货已经没有任何问题了...
原创 李... 刚过完年,娱乐圈的新闻就像炸弹一样,砸得人措手不及——这次,主角还是刘晓庆,但这次的风波可不是因为她...
信创BI赛道加速:亿信ABI如... 随着数字中国战略的深入推进,信息技术应用创新(信创)产业迎来爆发式增长。作为政企数字化转型的核心环节...
晶合集成获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示晶合集成(688249)新获得一项实用新型专利授权,专利名为“...
达尔信科技取得一种电源适配器专... 国家知识产权局信息显示,达尔信科技(深圳)有限公司取得一项名为“一种电源适配器”的专利,授权公告号C...
中国电商出海成本重置:欧盟将废... 伴随欧盟理事会正式批准小包裹进口关税新规,欧盟将正式废除长期以来针对价值低于150欧元的小包裹实施的...
刻入文化DNA里的声音,非遗音... 图片来源:摄图网 本文为《方圆》杂志原创稿件 1月12日 在2026年非遗主题全球春晚上 当重庆华岩...