OpenAI曾秘密测试GPT-4o,登顶聊天机器人竞技场排行榜
创始人
2024-05-14 19:33:44
0

原标题:OpenAI曾秘密测试GPT-4o,登顶聊天机器人竞技场排行榜

IT之家 5 月 14 日消息,OpenAI 员工 William Fedus 周一在社交平台 X 证实,近期在 LMSYS 聊天机器人竞技场 (Chatbot Arena) 上表现优异的神秘聊天机器人“gpt-chatbot”,正是他们刚刚发布的全新人工智能模型 GPT-4o。Fedus 还透露,GPT-4o 在测试中登顶了竞技场排行榜,取得了有史以来的最高分。

“GPT-4o 是我们最先进的尖端模型,”Fedus 在推特上写道,“我们一直在竞技场使用‘im-also-a-good-gpt2-chatbot’的名称测试该模型的一个版本。”

聊天机器人竞技场是一个网站,访客可以同时与两个随机的 AI 语言模型对话,却不知道哪个是哪个,然后选择提供更好回复的模型。

从今年 4 月份开始,OpenAI 在竞技场测试了多个版本的 GPT-4o,该模型最初以“gpt2-chatbot” 的名称出现,然后变成了“im-a-good-gpt2-chatbot”,最后是“im-also-a-good-gpt2-chatbot”。

自 GPT-4o 今日发布以来,多方消息人士透露,该模型以巨大优势登顶了 LMSYS 的内部排行榜,超越了之前排名最高的模型 Claude 3 Opus 和 GPT-4 Turbo。

lmsys.org的官方账号分享了一张图表,并写道:“‘gpt2-chatbot’系列模型刚刚飙升至榜首,以显著的优势(约 50 Elo)超越了所有其他模型,它已经成为竞技场中最强大的模型。这是一张内部截图,公开版本的‘gpt-4o’现已进入竞技场,并很快将出现在公开排行榜上!”

截至IT之家发稿时,“im-also-a-good-gpt2-chatbot” 的 Elo 分数为 1309,领先于 GPT-4-Turbo-2023-04-09 的 1253 分和 Claude 3 Opus 的 1246 分。在三个“gpt2-chatbot” 出现并搅局之前,Claude 3 和 GPT-4 Turbo 一直在排行榜上争夺冠军。

相关内容

热门资讯

聊城市高端智能装备和生物医药产... 4月25日下午,聊城市市场监管局主办、高新区发展保障部联合聊城大学科技园承办的聊城市高端智能装备和生...
原创 爱... 1955年4月18日,伟大的物理学家爱因斯坦在美国普林斯顿大学病逝,为了弄清爱因斯坦的死因,爱因斯坦...
华为申请通信方法相关专利,可实... 金融界2025年4月28日消息,国家知识产权局信息显示,华为技术有限公司申请一项名为“一种通信方法、...
极飞滴灌系统数字技术重塑农田水... 在甘肃河西走廊的万亩玉米田中,埋藏于土壤下的智能滴灌带正以毫米级精度输送水肥,气象站实时捕捉空气湿度...
高自由度灵巧手市占率80%以上... 灵巧手作为人形机器人实现高精度操作与复杂交互的核心部件,其技术突破是机器人从实验室走向实际应用的关键...
走访中广核风电基地:701台风... 701台风电机组沿着山脊伫立在草原上,风机随着呼啸而过的山风徐徐转动,单台风机每转一圈就能发出4.6...
如何破除“内卷式”竞争 傅晋华 “内卷”成为近年来全社会关注的现象。中央经济工作会议在部署“以科技创新引领新质生产力发展,建...
如何在不确定环境中投资? 当前,全球经济正经历全球供应链重构与地缘政治不确定性的双重挑战。国际货币基金组织(IMF)4月发布的...