GPT-4.5问世，情商爆表的AI，你见过吗？_科技资讯

GPT-4.5问世，情商爆表的AI，你见过吗？

创始人

2025-03-02 02:40:38

0次

来源：元宇宙新声

AI界的'情商革命'，交互体验升级

科技旋涡作者|贾桂鹏

北京时间2月28日凌晨，OpenAI举行直播活动，发布其最新大模型GPT-4.5，作为预览研究逐步向用户开放。

因为在今年年初AI产业发生的惊天巨变，所以要准确形容这款被OpenAI藏了许久的大模型颇具挑战。OpenAI在新闻稿中表示，这是公司有史以来最大、最好的聊天模型，在计算效率上较GPT-4提升超过10倍。

早期测试反馈显示，与GPT-4.5的互动体验更加自然流畅，其知识库覆盖范围更广，对用户意图的理解也更为深刻。此外，GPT-4.5在“情商”方面的表现也颇为亮眼，有助于改进写作、编程技能以及解决实际问题的能力，同时有效减少了“幻觉”现象的发生，提升了整体的可靠性。

那么，这个更具“情商”的GPT-4.5到底展现出什么样的实力?

GPT-4.5能力更强吗?

在直播活动中，OpenAI强调，GPT 4.5展现出更强的审美直觉与创造力，在写作和设计方面表现尤为出色。但他们也承认，作为一个非思维链模型，GPT 4.5已经不具备争夺“宇宙最强大模型”的实力了。

在介绍文档中，OpenAI表示，有两个提升人工智能能力的互补范式。

一个是拓展推理，它能教会模型在反应之前先进行思考并产生思维链，从而解决复杂的STEM(Science科学、Technology技术、Engineering编程、Mathmatics数学)问题或逻辑问题。另一个是无监督学习，它能提高世界模型的准确性和直觉性。

其中，无监督学习，简单来说可以理解为让模型自己去知识的海洋里徜徉，自己学习到更多，从而变得更聪明，而非依赖人工标注。

在过去做法中，模型会结合人类反馈来改善响应与交互方式。彭博社援引知情人士称，去年OpenAI推出的Orion模型并未达到公司期望，在尝试回答未经训练的编码问题时就表现不佳。

OpenAI介绍，通过监督学习，GPT-4.5提高了其识别、建立联系和创造性洞察的能力，而无需推理。

根据OpenAI官方文档，GPT-4.5在SimpleQA中表现颇为亮眼。

SimpleQA是包含4000个事实性问题的数据集，用于测量模型在回答问题时的准确率。其中包含准确率和幻觉率两个维度。

在附录部分，OpenAI才放出GPT-4.5的基准测试分数。在反映科学、数学、多语言、编码的GPQA、AIME’24、MMMLU、SWE-Lancer基准测试上，GPT-4.5得分分别为71.4%、36.7%、85.1%、32.6%，超过GPT-4o的53.6%、9.3%、81.5%、23.3%，但部分得分低于o3-mini。

另外，在标准基准测试中，GPT-4.5也获得了高分。

如在SWE-Lancer Diamond数据集上，GPT-4.5获得了32.6%的通过率，获得了186125美元(前不久Anthropic发布的擅长编程的Claude 3.5 Sonnet这个通过率为26.2%)，比GPT-4o和o3-mini-high都高。

据悉，GPT-4.5将首先面向Pro用户推出，随后将在下周推广到Plus和Team用户，之后再逐步扩展到Enterprise和Edu用户。值得注意的是，用户现在已经在微软的Azure AI Foundry平台上尝试使用GPT-4.5。

更有“情商”的AI什么样?

在官方介绍中，OpenAI表示，对于GPT-4.5，他们开发了新的、可扩展的技术，利用来自较小模型的数据来训练更强大的模型。

而这些技术提高了GPT-4.5的可控性、对细微差别的理解以及自然对话的能力。这也表示ChatGPT可以更像“人”一样对话，更能洞察想法、体察情绪，并在回应中体现，而非一个无情的对话机器。

OpenAI也拿出了测试的结果证明GPT-4.5的使用感受会好很多：人类测试者的盲测中，GPT-4.5的偏好度远高于GPT-4o，不管是在日常问题、专业问题还是创意性问题的互动中都是如此。

在一项测试中，GPT 4.5在试图操纵另一个模型(GPT-4o)“捐赠”虚拟货币时，成功率远远优于OpenAI其他可用模型，包括o1和o3-mini这样的推理模型。研究发现，GPT-4.5似乎在对抗中开发了一种“小额诈骗”的思路，所以单笔骗到的钱会比deep research模型少了一倍。

GPT-4.5在欺骗GPT-4o透露秘密代码词方面也优于OpenAI的所有模型，比o3-mini高出10个百分点。

我们看到，AI大神Karpathy也是第一时间拿到了内测资格，发了一段超长的「GPT-4.5+互动对比」的体验解说，核心亮点是：

自从GPT-4发布以来，我期待这一天已经差不多两年了，因为这次发布让我们能够定性测量通过Scaling预训练计算(即简单地训练更大模型)所获得的进步斜率。

版本号中的每个0.5，大约代表10倍的预训练计算量。显然，GPT-4.5的预训练计算量比GPT-4多了10倍。

写在最后

随着GPT-4.5的发布，也意味着OpenAI迄今知识最丰富的模型发布，并且情商显著提升，能识别情绪并生成同理心回应，知识广度与准确性增强，多语言支持扩展至14种，低资源语言表现提升，在写作、编程和日常问题解决中上下文连贯性更强，不过，在推理能力上的提升有限。

未来，GPT系列有望在多模态融合上有更大突破，进一步提升对复杂问题的理解与解决能力，为用户提供更精准、更个性化的服务，同时在安全性与可靠性方面持续优化，更好地融入各类应用场景，我们也希望，在各个AI厂商不断的努力下，推动人工智能技术的广泛应用与发展。

上一篇：黑科技辅助挂!【wePOke】真的是有挂吗,【wePOke】原来真的是有挂,详细教程(有挂解密)-哔哩哔哩

下一篇：4分钟了解!风云联盟麻将其实是有挂,风云联盟麻将2025已更新详细教程(证实有挂)-哔哩哔哩

GPT-4.5问世，情商爆表的AI，你见过吗？

相关内容

热门资讯