OpenAI曾秘密测试GPT-4o,登顶聊天机器人竞技场排行榜
创始人
2024-05-14 19:33:44
0

原标题:OpenAI曾秘密测试GPT-4o,登顶聊天机器人竞技场排行榜

IT之家 5 月 14 日消息,OpenAI 员工 William Fedus 周一在社交平台 X 证实,近期在 LMSYS 聊天机器人竞技场 (Chatbot Arena) 上表现优异的神秘聊天机器人“gpt-chatbot”,正是他们刚刚发布的全新人工智能模型 GPT-4o。Fedus 还透露,GPT-4o 在测试中登顶了竞技场排行榜,取得了有史以来的最高分。

“GPT-4o 是我们最先进的尖端模型,”Fedus 在推特上写道,“我们一直在竞技场使用‘im-also-a-good-gpt2-chatbot’的名称测试该模型的一个版本。”

聊天机器人竞技场是一个网站,访客可以同时与两个随机的 AI 语言模型对话,却不知道哪个是哪个,然后选择提供更好回复的模型。

从今年 4 月份开始,OpenAI 在竞技场测试了多个版本的 GPT-4o,该模型最初以“gpt2-chatbot” 的名称出现,然后变成了“im-a-good-gpt2-chatbot”,最后是“im-also-a-good-gpt2-chatbot”。

自 GPT-4o 今日发布以来,多方消息人士透露,该模型以巨大优势登顶了 LMSYS 的内部排行榜,超越了之前排名最高的模型 Claude 3 Opus 和 GPT-4 Turbo。

lmsys.org的官方账号分享了一张图表,并写道:“‘gpt2-chatbot’系列模型刚刚飙升至榜首,以显著的优势(约 50 Elo)超越了所有其他模型,它已经成为竞技场中最强大的模型。这是一张内部截图,公开版本的‘gpt-4o’现已进入竞技场,并很快将出现在公开排行榜上!”

截至IT之家发稿时,“im-also-a-good-gpt2-chatbot” 的 Elo 分数为 1309,领先于 GPT-4-Turbo-2023-04-09 的 1253 分和 Claude 3 Opus 的 1246 分。在三个“gpt2-chatbot” 出现并搅局之前,Claude 3 和 GPT-4 Turbo 一直在排行榜上争夺冠军。

相关内容

热门资讯

全职高手IP联动瑞士文旅 2025-07-22 14:00:30 作者:狼叫兽 近日,瑞士国家博物馆举办了一场别具意义的启动...
国内首个基于真实场景的具身智能... 新京报讯 据“北京亦庄”微信公众号消息,在北京亦庄,一座特殊的“机器人学校”于近期正式启动建设——由...
总投资135亿元 广东为何要建... 防洪 为北江防洪体系补上“关键拼图” 航运 连江腹地可通航500吨级船舶 发电 年均输出1亿多千瓦时...
6座半导体工厂建设加速,“印度... 据印度《经济时报》18日报道,印度首款国产芯片将于今年问世,同时6家半导体工厂正加速建设。 报道称,...
AI智能体开发:企业构建“决策... 当某制药厂的研发智能体自主发现分子筛选效率提升40%的新路径时 人类科学家才惊觉:AI已从执行工具进...
这场国际机器人领域大赛开擂,创... 7月21日上午,“智联全球 才聚玉环”中国•玉环第八届国际高层次人才创业大赛(机器人与高端装备)新闻...
澎湃包装取得防堆码梯形木箱专利... 金融界2025年7月22日消息,国家知识产权局信息显示,澎湃包装工程无锡有限公司取得一项名为“一种防...
三大运营商推进行风纠风:精简套... 电话套餐资费不透明、套餐退订难、套餐种类眼花缭乱搞不懂……这些问题你碰到过吗? 记者获悉,近日,三大...
振特科技取得边撑开关试验设备专... 金融界 2025 年 7 月 22 日消息,国家知识产权局信息显示,浙江振特科技有限公司取得一项名为...
苏州瑞威取得一种离心机轴承座装... 金融界2025年7月22日消息,国家知识产权局信息显示,苏州瑞威离心分离技术有限公司取得一项名为“一...