OpenAI发新模型！首次将视觉信息整合到推理过程，可利用所有ChatGPT工具_科技资讯

OpenAI发新模型！首次将视觉信息整合到推理过程，可利用所有ChatGPT工具

创始人

2025-04-17 15:01:33

0次

OpenAI周三发布新款AI模型o3和o4-mini，模仿人类的推理过程，解决复杂编程和视觉任务的推理。同时，该公司也发布开源AI agent CodeX CLI，用于帮助用户执行编程任务，从而改善市场竞争能力。

OpenAI此次推出的主要新型推理模型名为o3，同时还发布了一款更小型的模型，命名为o4-mini。这一发布延续了去年9月OpenAI首个推理模型o1的问世，当时o1主要专注于解决复杂问题，并通过多步骤的方式进行思考和作答。

该公司表示，新发布的o3模型在响应用户提示之前会花费更多时间进行计算，目标是解决与科学、数学和编程相关的更复杂的多步骤问题。借助o3，用户可以上传白板笔记、草图和其他图像内容，让AI进行分析与讨论。这些模型还能对图像进行旋转、缩放等编辑操作。

与此同时，o4-mini则提供了价格、速度和性能之间的“有竞争力的平衡”，这是开发者在选择AI模型为其应用提供支持时经常考虑的三大因素。两款模型现已向OpenAI付费用户开放。

OpenAI在公告中写道，o3和o4-mini是首批能够“图像思维”的AI模型：

“这是我们首次推出能够独立使用全部ChatGPT工具的推理模型——包括网页浏览、Python编程、图像理解和图像生成能力。这使得它们在解决复杂的多步骤问题时更加高效，并朝着自主执行任务的方向迈出了真正一步。”

该公司解释称，这意味着“它们不仅能看图，还能将视觉信息直接整合进推理链条之中”。

OpenAI表示，o3在SWE-bench verified测试中表现达到了当前最先进的水平（不使用自定义结构），该测试主要评估编程能力，o3的得分为69.1%。o4-mini的得分也相当出色，达到68.1%。作为对比，OpenAI此前最好的模型o3-mini在该测试中得分为49.3%，而Anthropic的Claude 3.7 Sonnet得分为62.3%。

DeepSeek压力下 OpenAI也想开源了？

OpenAI在2022年底推出ChatGPT，引发了生成式人工智能的热潮。当时这款产品搭载的是GPT-3.5模型。此后，该公司陆续发布了多个日益复杂的系统，包括多个推理模型。但OpenAI目前面临着来自中国新兴企业DeepSeek、Anthropic以及马斯克旗下xAI等公司的巨大压力，这些公司不断推出一系列具备类似前沿能力的AI模型。

分析认为，编程已成为生成式AI应用中增长最快的领域之一，也是OpenAI的一个关键竞争战场。Anthropic和谷歌母公司Alphabet都大力宣传其新一代AI系统的编程能力。其他创业公司，如Cursor的开发商Anysphere，也凭借面向程序员的AI工具获得了广泛关注。

为在这个竞争激烈的市场中更具优势，OpenAI周三宣布推出Codex CLI，这是一款旨在与如o3等模型协同工作的AI代理，可帮助用户完成编程任务。该产品是开源的，意味着将免费向用户开放，并可直接在用户的计算机终端程序中运行。

奥特曼此前曾表示，公司正在开发一个开源版本的推理模型，计划在未来几个月内发布，此举是为了回应DeepSeek旗下开源系统R1走红后的市场影响。

OpenAI还表示，未来几周内将推出o3-pro，这是o3的一个升级版本，使用更多计算资源生成回答，仅向ChatGPT Pro订阅用户开放。而奥特曼此前曾表示，o3和o4-mini可能是OpenAI在GPT-5发布之前推出的最后一批独立推理模型。GPT-5预计将融合传统模型（如GPT-4.1）与推理模型，实现统一发展方向。

上一篇：让我来分享经验！aa poker辅助软件透明挂后台，众合推扑克辅助神器脚本（透明挂）详细教程（哔哩哔哩）

下一篇：三分钟了解(微乐河南麻将)透视技巧,外挂辅助脚本(2020已更新)(哔哩哔哩)

OpenAI发新模型！首次将视觉信息整合到推理过程，可利用所有ChatGPT工具

相关内容

热门资讯