OpenAI曾秘密测试GPT-4o,登顶聊天机器人竞技场排行榜
创始人
2024-05-14 19:33:44
0

原标题:OpenAI曾秘密测试GPT-4o,登顶聊天机器人竞技场排行榜

IT之家 5 月 14 日消息,OpenAI 员工 William Fedus 周一在社交平台 X 证实,近期在 LMSYS 聊天机器人竞技场 (Chatbot Arena) 上表现优异的神秘聊天机器人“gpt-chatbot”,正是他们刚刚发布的全新人工智能模型 GPT-4o。Fedus 还透露,GPT-4o 在测试中登顶了竞技场排行榜,取得了有史以来的最高分。

“GPT-4o 是我们最先进的尖端模型,”Fedus 在推特上写道,“我们一直在竞技场使用‘im-also-a-good-gpt2-chatbot’的名称测试该模型的一个版本。”

聊天机器人竞技场是一个网站,访客可以同时与两个随机的 AI 语言模型对话,却不知道哪个是哪个,然后选择提供更好回复的模型。

从今年 4 月份开始,OpenAI 在竞技场测试了多个版本的 GPT-4o,该模型最初以“gpt2-chatbot” 的名称出现,然后变成了“im-a-good-gpt2-chatbot”,最后是“im-also-a-good-gpt2-chatbot”。

自 GPT-4o 今日发布以来,多方消息人士透露,该模型以巨大优势登顶了 LMSYS 的内部排行榜,超越了之前排名最高的模型 Claude 3 Opus 和 GPT-4 Turbo。

lmsys.org的官方账号分享了一张图表,并写道:“‘gpt2-chatbot’系列模型刚刚飙升至榜首,以显著的优势(约 50 Elo)超越了所有其他模型,它已经成为竞技场中最强大的模型。这是一张内部截图,公开版本的‘gpt-4o’现已进入竞技场,并很快将出现在公开排行榜上!”

截至IT之家发稿时,“im-also-a-good-gpt2-chatbot” 的 Elo 分数为 1309,领先于 GPT-4-Turbo-2023-04-09 的 1253 分和 Claude 3 Opus 的 1246 分。在三个“gpt2-chatbot” 出现并搅局之前,Claude 3 和 GPT-4 Turbo 一直在排行榜上争夺冠军。

相关内容

热门资讯

原创 宿... 大家都知道,子宫是女性特有的生理器官,男性是没有的。然而在2025年11月中旬,安徽宿州就上演了一场...
暴增407%!六氟磷酸锂巨头多... 化工行业的牛市,已经开启。 尤其是一些热门化工板块,格外受到市场的青睐。例如最近表现比较“抢眼”的多...
2000元到3000元,目前“... 2000元到3000元这个价位,一直是最卷、竞争最激烈的手机区间。性能、影像、续航、屏幕,各家都在堆...
让光机足够小显示效果足够好 团... 杨克晓 全球人工智能终端展上,展出的雷鸟X3 Pro智能眼镜。 展会现场,参展观众体验雷鸟眼镜。...
“细胞密信”与“免疫特工”解锁... 图片来源:AI生成 【科普园地】 ◎本报记者 张梦然 在动物王国里,有些生物似乎握有再生的神秘钥匙。...
从中产抢着打卡,到集体甩卖倒闭... 作者|快刀财经 朱末 以前争着买,现在抢着卖。谁能想到,曾经象征着“高端”“体面”的五星级酒店,如...
热评丨从秋招新风向看产业新变化 “今年到明年,我们在脑机接口算法、脑机接口软件开发以及系统应用开发这几个方向的招聘人数要翻倍。”秋招...
做量子世界“探矿人” 促量子应... 东南大学量子材料与信息器件教育部重点实验室 南京邮电大学实验室中的量子科技设备 □ 本报记者 叶真...
原创 开... 标题:开心一笑:初恋女友给我打电话,说刚生的那个孩子长得太像我了… 在那个阳光明媚的午后,我正坐在...
特朗普据悉计划签署行政令,将首... 2月28日消息,多家媒体报道称,美国总统特朗普计划签署一项行政命令,将首次指定英语为美国的官方语言。...