大模型高考全卷评测结果出炉：最高分303，数学全不及格_科技资讯

大模型高考全卷评测结果出炉：最高分303，数学全不及格

创始人

2024-06-20 09:21:28

0次

大模型之家讯 6月19日，上海人工智能实验室的司南评测体系OpenCompass公布了其首次针对七个大模型进行的高考“语数外”全卷能力测试结果。在这项测试中，阿里通义千问2-72B以303分的优异成绩位列榜首，紧随其后的是OpenAI的GPT-4o，获得了296分。上海人工智能实验室自家的书生·浦语2.0则以出色的表现位列第三，三个大模型的得分率均超过了70%。

这次高考全卷评测的总分为420分，涵盖了语文、数学和外语三科。从结果来看，尽管这些大模型在语文和英语方面普遍表现出色，但在数学科目上却遭遇了滑铁卢，最高得分仅为75分，无一及格。这一结果也揭示了当前大模型在特定领域，尤其是数学领域的局限性。

值得注意的是，此次排名末尾的是来自法国大模型初创公司的Mistral。尽管Mistral在其他领域可能有着不俗的表现，但在这次高考全卷评测中，其成绩显然未能达到预

上一篇：连续三年斩获“牛剑”录取！这场毕业典礼现场星光熠熠

下一篇：飞飞飞飞飞飞飞飞飞得更高！

热门资讯

银发餐饮：为何万亿市场，却难觅... 银发经济的餐饮蓝海：为何万亿市场，却难觅一个成功品牌？ —— 藏在“三低”需求里的真金，为什么你挖不...

毕业了，团组织关系怎么办？(附... 又是一年毕业季学业落幕、逐梦前行的同时广大应届毕业学生团员千万别忘了一件重要事项—— 团组织关...

预算300万元中国科协招标制... 中国政府采购网发布招标公告，中国科协科学技术传播中心正式启动中华科技文明展（三）影片策划和制作项目采...

原创金... “飞雪连天射白鹿，笑书神侠倚碧鸳”，只要你自诩武侠迷，就一定不会错过金庸的这十四部经典之作，哪怕这些...

豹猫在北京如何生活？记者探访西... 豹猫隶属于食肉目猫科豹猫属，是国家二级保护动物。很多人听到它的名字会以为它像豹子那么大，其实它的体形...

欧洲“重拾”核能，前景如何近期，欧盟委员会主席冯德莱恩在今年的巴黎核能峰会上表示，欧洲过去几十年削弱核能地位是“战略性错误”，...

工信部：支持研发专业性高、落地... 央广网北京6月10日消息（记者黄昂瑾）近日，工业和信息化部印发《“人工智能+信息通信”创新发展实施...

华通精密取得FPCA测试治具专... 国家知识产权局信息显示，华通精密线路板（惠州）股份有限公司取得一项名为“一种FPCA测试治具”的专利...

原创红... 随着手游与应用不断升级，高配置、高性能的机型越来越多，比如红米K90系列、荣耀WIN系列、iQOO ...

科和盛业取得磁控溅射布气装置专... 国家知识产权局信息显示，深圳市科和盛业技术有限公司、东莞市科盛机电设备有限公司取得一项名为“一种磁控...

大模型高考全卷评测结果出炉：最高分303，数学全不及格

相关内容

热门资讯