GPT-4.5问世,情商爆表的AI,你见过吗?
创始人
2025-03-02 02:40:38
0

来源:元宇宙新声

AI界的'情商革命',交互体验升级

科技旋涡作者|贾桂鹏

北京时间2月28日凌晨,OpenAI举行直播活动,发布其最新大模型GPT-4.5,作为预览研究逐步向用户开放。

因为在今年年初AI产业发生的惊天巨变,所以要准确形容这款被OpenAI藏了许久的大模型颇具挑战。OpenAI在新闻稿中表示,这是公司有史以来最大、最好的聊天模型,在计算效率上较GPT-4提升超过10倍。

早期测试反馈显示,与GPT-4.5的互动体验更加自然流畅,其知识库覆盖范围更广,对用户意图的理解也更为深刻。此外,GPT-4.5在“情商”方面的表现也颇为亮眼,有助于改进写作、编程技能以及解决实际问题的能力,同时有效减少了“幻觉”现象的发生,提升了整体的可靠性。

那么,这个更具“情商”的GPT-4.5到底展现出什么样的实力?

GPT-4.5能力更强吗?

在直播活动中,OpenAI强调,GPT 4.5展现出更强的审美直觉与创造力,在写作和设计方面表现尤为出色。但他们也承认,作为一个非思维链模型,GPT 4.5已经不具备争夺“宇宙最强大模型”的实力了。

在介绍文档中,OpenAI表示,有两个提升人工智能能力的互补范式。

一个是拓展推理,它能教会模型在反应之前先进行思考并产生思维链,从而解决复杂的STEM(Science科学、Technology技术、Engineering编程、Mathmatics数学)问题或逻辑问题。另一个是无监督学习,它能提高世界模型的准确性和直觉性。

其中,无监督学习,简单来说可以理解为让模型自己去知识的海洋里徜徉,自己学习到更多,从而变得更聪明,而非依赖人工标注。

在过去做法中,模型会结合人类反馈来改善响应与交互方式。彭博社援引知情人士称,去年OpenAI推出的Orion模型并未达到公司期望,在尝试回答未经训练的编码问题时就表现不佳。

OpenAI介绍,通过监督学习,GPT-4.5提高了其识别、建立联系和创造性洞察的能力,而无需推理。

根据OpenAI官方文档,GPT-4.5在SimpleQA中表现颇为亮眼。

SimpleQA是包含4000个事实性问题的数据集,用于测量模型在回答问题时的准确率。其中包含准确率和幻觉率两个维度。

在附录部分,OpenAI才放出GPT-4.5的基准测试分数。在反映科学、数学、多语言、编码的GPQA、AIME’24、MMMLU、SWE-Lancer基准测试上,GPT-4.5得分分别为71.4%、36.7%、85.1%、32.6%,超过GPT-4o的53.6%、9.3%、81.5%、23.3%,但部分得分低于o3-mini。

另外,在标准基准测试中,GPT-4.5也获得了高分。

如在SWE-Lancer Diamond数据集上,GPT-4.5获得了32.6%的通过率,获得了186125美元(前不久Anthropic发布的擅长编程的Claude 3.5 Sonnet这个通过率为26.2%),比GPT-4o和o3-mini-high都高。

据悉,GPT-4.5将首先面向Pro用户推出,随后将在下周推广到Plus和Team用户,之后再逐步扩展到Enterprise和Edu用户。值得注意的是,用户现在已经在微软的Azure AI Foundry平台上尝试使用GPT-4.5。

更有“情商”的AI什么样?

在官方介绍中,OpenAI表示,对于GPT-4.5,他们开发了新的、可扩展的技术,利用来自较小模型的数据来训练更强大的模型。

而这些技术提高了GPT-4.5的可控性、对细微差别的理解以及自然对话的能力。这也表示ChatGPT可以更像“人”一样对话,更能洞察想法、体察情绪,并在回应中体现,而非一个无情的对话机器。

OpenAI也拿出了测试的结果证明GPT-4.5的使用感受会好很多:人类测试者的盲测中,GPT-4.5的偏好度远高于GPT-4o,不管是在日常问题、专业问题还是创意性问题的互动中都是如此。

在一项测试中,GPT 4.5在试图操纵另一个模型(GPT-4o)“捐赠”虚拟货币时,成功率远远优于OpenAI其他可用模型,包括o1和o3-mini这样的推理模型。研究发现,GPT-4.5似乎在对抗中开发了一种“小额诈骗”的思路,所以单笔骗到的钱会比deep research模型少了一倍。

GPT-4.5在欺骗GPT-4o透露秘密代码词方面也优于OpenAI的所有模型,比o3-mini高出10个百分点。

我们看到,AI大神Karpathy也是第一时间拿到了内测资格,发了一段超长的「GPT-4.5+互动对比」的体验解说,核心亮点是:

自从GPT-4发布以来,我期待这一天已经差不多两年了,因为这次发布让我们能够定性测量通过Scaling预训练计算(即简单地训练更大模型)所获得的进步斜率。

版本号中的每个0.5,大约代表10倍的预训练计算量。显然,GPT-4.5的预训练计算量比GPT-4多了10倍。

写在最后

随着GPT-4.5的发布,也意味着OpenAI迄今知识最丰富的模型发布,并且情商显著提升,能识别情绪并生成同理心回应,知识广度与准确性增强,多语言支持扩展至14种,低资源语言表现提升,在写作、编程和日常问题解决中上下文连贯性更强,不过,在推理能力上的提升有限。

未来,GPT系列有望在多模态融合上有更大突破,进一步提升对复杂问题的理解与解决能力,为用户提供更精准、更个性化的服务,同时在安全性与可靠性方面持续优化,更好地融入各类应用场景,我们也希望,在各个AI厂商不断的努力下,推动人工智能技术的广泛应用与发展。

相关内容

热门资讯

9分钟了解!X-poker软件... 您好,陕西麻将这款游戏可以开挂的,确实是有挂的,需要了解加微【136704302】很多玩家在这款游戏...
7分钟最新款!(WPK俱乐部)... 7分钟最新款!(WPK俱乐部)有挂猫腻,WPK俱乐部详细教程(有挂功能)-哔哩哔哩;超受欢迎的WPK...
四分钟了解!(博乐温州棋牌)真... 四分钟了解!(博乐温州棋牌)真实是有挂辅助挂吗,扬州麻将外挂透视辅助挂,详细教程(有挂工具)-哔哩哔...
1分钟了解!天天游戏其实确实是... 1分钟了解!天天游戏其实确实是有挂,AAPOKeR其实一直总是有挂,详细教程(有挂详细)-哔哩哔哩;...
八分钟了解!wpk微扑克软件透... 八分钟了解!wpk微扑克软件透明挂,福建天天开心调胜率,详细教程(果真有挂)-哔哩哔哩;福建天天开心...
9分钟分钟!可乐斗地主有挂,松... 9分钟分钟!可乐斗地主有挂,松政麻将其实确实用用挂的,详细教程(2023已更新)(哔哩哔哩);是一款...
5分钟了解!(雀悦诏安麻将)是... 5分钟了解!(雀悦诏安麻将)是有挂猫腻吗,滇南棋牌其实确实存在有挂的,详细教程(有挂透视)-哔哩哔哩...
四分钟了解!福建八闽麻将原来一... 四分钟了解!福建八闽麻将原来一直都是有挂,TT扑克是有挂猫腻吗,详细教程(有挂头条)-哔哩哔哩是一款...
4分钟了解!Wepoke程序软... 4分钟了解!Wepoke程序软件透明挂,吉祥游戏填大坑插件,详细教程(有挂详细)-哔哩哔哩;最新版本...
8分钟了解!(桃乐永州扯胡子)... 您好,桃乐永州扯胡子这款游戏可以开挂的,确实是有挂的,需要了解加微【136704302】很多玩家在这...