OpenAI曾秘密测试GPT-4o,登顶聊天机器人竞技场排行榜
创始人
2024-05-14 19:33:44
0

原标题:OpenAI曾秘密测试GPT-4o,登顶聊天机器人竞技场排行榜

IT之家 5 月 14 日消息,OpenAI 员工 William Fedus 周一在社交平台 X 证实,近期在 LMSYS 聊天机器人竞技场 (Chatbot Arena) 上表现优异的神秘聊天机器人“gpt-chatbot”,正是他们刚刚发布的全新人工智能模型 GPT-4o。Fedus 还透露,GPT-4o 在测试中登顶了竞技场排行榜,取得了有史以来的最高分。

“GPT-4o 是我们最先进的尖端模型,”Fedus 在推特上写道,“我们一直在竞技场使用‘im-also-a-good-gpt2-chatbot’的名称测试该模型的一个版本。”

聊天机器人竞技场是一个网站,访客可以同时与两个随机的 AI 语言模型对话,却不知道哪个是哪个,然后选择提供更好回复的模型。

从今年 4 月份开始,OpenAI 在竞技场测试了多个版本的 GPT-4o,该模型最初以“gpt2-chatbot” 的名称出现,然后变成了“im-a-good-gpt2-chatbot”,最后是“im-also-a-good-gpt2-chatbot”。

自 GPT-4o 今日发布以来,多方消息人士透露,该模型以巨大优势登顶了 LMSYS 的内部排行榜,超越了之前排名最高的模型 Claude 3 Opus 和 GPT-4 Turbo。

lmsys.org的官方账号分享了一张图表,并写道:“‘gpt2-chatbot’系列模型刚刚飙升至榜首,以显著的优势(约 50 Elo)超越了所有其他模型,它已经成为竞技场中最强大的模型。这是一张内部截图,公开版本的‘gpt-4o’现已进入竞技场,并很快将出现在公开排行榜上!”

截至IT之家发稿时,“im-also-a-good-gpt2-chatbot” 的 Elo 分数为 1309,领先于 GPT-4-Turbo-2023-04-09 的 1253 分和 Claude 3 Opus 的 1246 分。在三个“gpt2-chatbot” 出现并搅局之前,Claude 3 和 GPT-4 Turbo 一直在排行榜上争夺冠军。

相关内容

热门资讯

操作辅助!超凡辅助软件(辅助)... 操作辅助!超凡辅助软件(辅助)果然是有辅助方法(哔哩哔哩)1、让任何用户在无需超凡辅助软件安装教程第...
教程书辅助!神兽大厅源码(辅助... 教程书辅助!神兽大厅源码(辅助)原来真的是有辅助方法(哔哩哔哩)1、让任何用户在无需神兽大厅源码安装...
窍门辅助!微友辅助器免费下载(... 窍门辅助!微友辅助器免费下载(辅助)一贯一直总是有辅助方法(哔哩哔哩)1、这是跨平台的微友辅助器免费...
手筋辅助!九九山城辅助(辅助)... 手筋辅助!九九山城辅助(辅助)确实真的有辅助教程(哔哩哔哩)1、全新机制【九九山城辅助ai辅助工具激...
阿联酋阿布扎比遭弹道导弹袭击,... 3月26日消息,阿联酋阿布扎比媒体办公室表示,该国防空系统成功拦截了一枚弹道导弹,有关部门正在处理碎...
A股收评:三大指数均跌逾1%,... 3月26日消息,A股三大指数今日集体下挫,截至收盘,沪指跌1.09%报3889点,深证成指跌1.41...
机巧辅助!宝宝浙江游戏有挂吗(... 机巧辅助!宝宝浙江游戏有挂吗(辅助)真是是真的有辅助方法(哔哩哔哩)小薇(辅助器软件下载)致您一封信...
浙江世宝:已有数个线控转向相关... 3月26日消息,浙江世宝在互动平台表示,公司已有数个线控转向相关的开发项目,正在根据客户的时间要求推...
教程书辅助!洞庭茶苑辅助(辅助... 教程书辅助!洞庭茶苑辅助(辅助)好像有辅助教程(哔哩哔哩)1、很好的工具软件,可以解锁游戏的洞庭茶苑...
菲律宾央行将基准利率维持在4.... 3月26日消息,菲律宾央行将基准利率维持在4.25%不变。(广角观察)