复旦大学高考数学大模型评测,阿里千问和讯飞星火力压GPT-4o
创始人
2024-06-12 18:01:09
0

近日,复旦大学NLP(自然语言处理)实验室LLMEVAL团队发布了2024年高考数学大模型评测的结果。在这次评测中,阿里千问和讯飞星火分别获得了2024高考数学新I卷的第一名和第二名,以及高考数学新II卷的第二名和第一名,两份考卷的评测中,GPT-4o均列第三名。

复旦NLP团队认为,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的绝好评测集合。在新Ⅰ卷中,阿里千问和讯飞星火对14道数学客观题的准确率达到70%以上,大幅领先GPT-4o的57%,字节豆包、智谱清言、百川等大模型紧随其后,准确率超过50%,百度文心一言、腾讯元宝、Kimi等大模型准确率较低。而在在新Ⅱ卷的评测中,讯飞星火、阿里千问、GPT-4o准确率均超过60%,其他大模型的差距较小,除百川、DeepSeek和海螺之外,准确率均在50%以上。

数学能力是GPT-4o一直以来引以为傲的能力模块,OpenAI在5月14日的发布会上推出大语言模型GPT-4o时,曾重点演示其数学能力。

在现场演示中,GPT-4o利用其实时的图像识别和语音能力进行在线教学。从评测结果可以看出,阿里千问和讯飞星火对数学问题的深入理解和分析能力已经超过GPT-4o,使其在高考数学试题的解答上具有更高的准确率。有网友表示,做数学题毕竟还是咱中国人的特长。

以阿里千问和讯飞星火为代表,国产人工智能大模型在数学领域的出色能力,为未来人工智能技术在教育领域的应用提供了有力支持。

相关内容

热门资讯

银发餐饮:为何万亿市场,却难觅... 银发经济的餐饮蓝海:为何万亿市场,却难觅一个成功品牌? —— 藏在“三低”需求里的真金,为什么你挖不...
毕业了,团组织关系怎么办?(附... 又是一年毕业季 学业落幕、逐梦前行的同时 广大应届毕业学生团员 千万别忘了一件重要事项—— 团组织关...
预算300万元 中国科协招标制... 中国政府采购网发布招标公告,中国科协科学技术传播中心正式启动中华科技文明展(三)影片策划和制作项目采...
原创 金... “飞雪连天射白鹿,笑书神侠倚碧鸳”,只要你自诩武侠迷,就一定不会错过金庸的这十四部经典之作,哪怕这些...
豹猫在北京如何生活?记者探访西... 豹猫隶属于食肉目猫科豹猫属,是国家二级保护动物。很多人听到它的名字会以为它像豹子那么大,其实它的体形...
欧洲“重拾”核能,前景如何 近期,欧盟委员会主席冯德莱恩在今年的巴黎核能峰会上表示,欧洲过去几十年削弱核能地位是“战略性错误”,...
工信部:支持研发专业性高、落地... 央广网北京6月10日消息(记者 黄昂瑾)近日,工业和信息化部印发《“人工智能+信息通信”创新发展实施...
华通精密取得FPCA测试治具专... 国家知识产权局信息显示,华通精密线路板(惠州)股份有限公司取得一项名为“一种FPCA测试治具”的专利...
原创 红... 随着手游与应用不断升级,高配置、高性能的机型越来越多,比如红米K90系列、荣耀WIN系列、iQOO ...
科和盛业取得磁控溅射布气装置专... 国家知识产权局信息显示,深圳市科和盛业技术有限公司、东莞市科盛机电设备有限公司取得一项名为“一种磁控...