复旦大学高考数学大模型评测,阿里千问和讯飞星火力压GPT-4o
创始人
2024-06-12 18:01:09
0

近日,复旦大学NLP(自然语言处理)实验室LLMEVAL团队发布了2024年高考数学大模型评测的结果。在这次评测中,阿里千问和讯飞星火分别获得了2024高考数学新I卷的第一名和第二名,以及高考数学新II卷的第二名和第一名,两份考卷的评测中,GPT-4o均列第三名。

复旦NLP团队认为,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的绝好评测集合。在新Ⅰ卷中,阿里千问和讯飞星火对14道数学客观题的准确率达到70%以上,大幅领先GPT-4o的57%,字节豆包、智谱清言、百川等大模型紧随其后,准确率超过50%,百度文心一言、腾讯元宝、Kimi等大模型准确率较低。而在在新Ⅱ卷的评测中,讯飞星火、阿里千问、GPT-4o准确率均超过60%,其他大模型的差距较小,除百川、DeepSeek和海螺之外,准确率均在50%以上。

数学能力是GPT-4o一直以来引以为傲的能力模块,OpenAI在5月14日的发布会上推出大语言模型GPT-4o时,曾重点演示其数学能力。

在现场演示中,GPT-4o利用其实时的图像识别和语音能力进行在线教学。从评测结果可以看出,阿里千问和讯飞星火对数学问题的深入理解和分析能力已经超过GPT-4o,使其在高考数学试题的解答上具有更高的准确率。有网友表示,做数学题毕竟还是咱中国人的特长。

以阿里千问和讯飞星火为代表,国产人工智能大模型在数学领域的出色能力,为未来人工智能技术在教育领域的应用提供了有力支持。

相关内容

热门资讯

中国生产航天员太空食品资质可靠... 在浩瀚的宇宙探索征程中,航天员的饮食保障至关重要。而在中国,有一家独具特色的企业——神舟太空食品高科...
透视好友房!德普之星怎么开辅助... 透视好友房!德普之星怎么开辅助, (德普)真是有挂(透视)透视辅助软件(有挂黑科技);1、任何德普之...
透视辅助!wpk俱乐部是真的吗... 透视辅助!wpk俱乐部是真的吗,(WPK)竟然有挂(透视)模拟器多开(有挂详情)1、操作简单,无需注...
透视模拟器!悦扑克脚本,德州私... 透视模拟器!悦扑克脚本,德州私人局脚本,科技教程(有挂攻略)1、完成德州私人局脚本透视辅助安装,帮助...
透视透视脚本!wepokerp... 透视透视脚本!wepokerplus开挂,(WEPOKER)一贯真的是有挂(透视)私人局辅助器可以用...
离《蒙娜丽莎》250米,卢浮宫... 法国卢浮宫博物馆劫案19日曝出更多细节。多家媒体报道说,案发时博物馆已开馆半个小时,这种光天化日下作...
透视存在!德普之星透视辅助, ... 透视存在!德普之星透视辅助, (德普)果然有挂(透视)透视软件免费入口官网(有挂辅助)进入游戏-大厅...
透视辅助!wpk控制牌是真的吗... 透视辅助!wpk控制牌是真的吗,(wPk)竟然存在有挂(透视)辅助购买(有挂教程);1)wpk控制牌...
“科技春晚” 《鸿蒙星光盛典》... 当央视正式官宣,《鸿蒙星光盛典》定档11月28日的消息传来,科技圈与大众的期待被瞬间点燃。这不仅是一...