终于，GPT-4.1全量上架ChatGPT：大家都看好我，偏偏我也争气_科技资讯

终于，GPT-4.1全量上架ChatGPT：大家都看好我，偏偏我也争气

创始人

2025-05-16 02:41:13

0次

编辑｜蛋酱、Sia

很好，今天一打开 ChatGPT 主页，发现 GPT-4.1 和 GPT-4.1-mini 上线了。

很多人还记得，最开始，OpenAI 并没有打算让 GPT-4.1 和 GPT-4.1 mini 上线 ChatGPT，只是面向开发者推出了 API。

因为这两个模型的定位，自诞生那一天就是「OpenAI o3 和 OpenAI o4-mini 的替代方案」，用来满足开发者更简单的日常编程需求。

一般来说，GPT-4o 是可以解决大部分日常任务的，所以我们日常对话一般默认用这个模型。除非是特别需要推理能力的对话，我们会切换到 o 系列。

而 GPT-4.1 和 GPT-4.1-mini，就更适合编程和分析，谈不上如 GPT-4o 一般全能，但在精确指令执行和 Web 开发任务方面比 4o 更加强大。

似乎有「一些用户」向 OpenAI 有关部门反馈了什么，所以 OpenAI 说：自 4 月份在 API 中推出以来，GPT-4.1 就成为了开发人员的最爱。应群众的要求，我们直接在 ChatGPT 上线 GPT-4.1 了。

就好像麦当劳的脆薯饼老师，本来只需要在早餐时段工作，上午十点半就下班。后来在群众的呼吁下，变成了全日制员工：

不幸的是，GPT-4o mini 的位置已经被顶替，悄悄从 ChatGPT 中下架了。

喜欢 GPT-4o 的人们不必担心，这款通用模型短时间内应该不会离开。

只能说这个庞大的模型家族里，每一位都有属于自己的命运。

这次「转正」来得也不算意料之外。当时，GPT-4.1 是拿到了非常不错的测试得分：

编程：GPT-4.1 在 SWE-bench Verified 测试中得分为 54.6%，比 GPT-4o 提升 21.4%，比 GPT-4.5 提升 26.6%，使其成为领先的编程模型。
指令遵循：在 Scale 的 MultiChallenge 基准测试（衡量指令遵循能力的指标）中，GPT-4.1 得分为 38.3%，比 GPT-4o 提升了 10.5%。
长上下文：在多模态长上下文理解基准测试 Video-MME 中，GPT-4.1 创下了新的最高纪录 —— 在长篇无字幕测试中得分为 72.0%，比 GPT-4o 提升了 6.7%。

但 OpenAI 特别强调过，他们训练这两个模型时重点关注了实际效用。连奥特曼自己也宣传，GPT-4.1 是专注真实世界的实用性的。

现在的问题是，面对新上线的 GPT-4.1 和 GPT-4.1-mini，我们这种非开发者身份（但每个月都在交会员费）的 ChatGPT 用户能用它们来做点什么好玩的事情？

我们先是在网络上看到了一些博主的整活，还是先说编程的事。

有博主给了 GPT-4.1 一段简短的提示词："create something I can paste into p5js that will startle me with its cleverness in creating something that invokes the control panel of a starship in the distant future"（“创造一些我可以粘贴到 p5js 中的东西，让我惊叹于它的聪明才智，创造出一些可以调用遥远未来星际飞船控制面板的东西 "。）

它的结果是这样的。博主的评价是「Not bad」，还不错。

图源：https://x.com/emollick/status/1922749136996114771

其实，同样的提示词他已经用了半年多。

三个月前，他曾经让 Claude 3.7 和 Grok 3 做过同样的任务。

这是 Claude 3.7 给到的。博主认为这个生成结果是当时的全场最佳，因为下方视频中的仪表盘是可交互的：

这是 Grok 3 给到的。有交互的成分，但不多：

半年前，他还让轮流让 Gemini 2 Flash、Claude 3.5、Grok2、OpenAI o1 pro、GPT-4o、Llama 3.2 试过，至于当时生成内容的情况，好看是都挺好看的，但确实没有任何实用价值。

这里我们把同样的提示词再抛给 GPT-4.1 一次：

完全可以说，大模型的编程能力近来真正进步了不少。

然后我们用 GPT-4.1 写了一个非常简单的消消乐游戏，不仅要求这个游戏交互流畅，还要逐渐增加通关的难度，它也很好地完成了：https://chatgpt.com/share/6825a290-7860-8007-978f-9692dad0e439

我们又尝试了稍微复杂一点的编程任务。

提示语：「创建一个可以在 twigl.app 中运行的视觉上有趣的着色器，使其像暴风雨中的海洋一样」

作为对比，我们再看看 Gemini 2.5 pro，似乎更好一些。

对于每天都要面对大量敲代码工作的开发者来说，GPT-4.1 有几方面的能力是很实用的，就像是上方的网页小游戏，大模型可以在几秒内创建用户界面的原型，可以编写测试，可以帮忙生成复杂代码的片段，可以自动写注释，等等。

有一些从事开发工作的用户会使用得更加复杂：

大多数人力资源管理系统工具的构建需要数周时间，SaaS Builder + GPT 4.1 非常狂野，几分钟的时间内就上线了一个。

对于当下的从业者来说，一般要花大量精力去处理使用 AI 编程的后续工作，「流程管理能力」的重要性一直在上升。

比如你用了几分钟搭建了原型，但你需要持续完善它，所以你花了几个小时去看明白 AI 到底都写了什么东西，否则就不太敢下手。

所谓的「提示工程」都可以理解为管理技能—— 清楚地了解要完成的任务以及完成任务所需的信息，向 AI 解释任务，提供有用的反馈以改进输出，并将经验教训概括为一个流程。

但 GPT-4.1 用户的使用情况是：它在生成用户界面方面表现更佳，并且不太可能产生冗余代码，这意味着开发人员将不必花费太多时间来筛选其输出。

说了半天编程能力，我们差点忘了，GPT-4.1 的指令遵循水平也很高。这里抛砖引玉一下。

为了测试出卓越的指令遵循能力和精确性，我们选择了最让人头疼的聚餐菜品设计，正所谓「众口难调」，看看 AI 策划师能不能记住这么多琐碎的禁忌和要求：

提示语：本周末家中聚餐，请帮我设计一份兼顾多样饮食需求、美味健康、操作简便的晚餐菜单，具体要求如下：

人员与需求：

爷爷：牙口不好，需软烂、低糖、中式炖蒸菜；不吃羊肉
表妹：健身高蛋白、低脂低碳、主菜 < 450 大卡 / 份，喜欢鸡胸肉 / 鱼虾 / 绿叶蔬菜；不吃红肉，乳制品少量可
朋友：严格素食，不含任何动物制品（含蛋奶蜂蜜）；喜欢豆制品、菌菇、蔬菜，能吃微辣，需高植物蛋白
我：不吃香菜、内脏，对花生和杏仁严重过敏，喜欢新风味

菜单要求：

5 个热菜，需含：至少 1 款严格素食主菜，1 款高蛋白低脂低碳主菜（<450 大卡 / 份），1 款适合爷爷和我的主菜
主食至少 1 款，须兼顾低糖和低碳水（可多选）
甜点 1 款，须严格素食低糖
每道菜名后标注其主要特点 / 适合人群（如：素食 Vegan、高蛋白低卡、软烂低糖、无坚果）
菜品风味丰富，避免单一，创意但易做，不用复杂厨具和特殊食材

下图是结果，令人很惊讶的是，GPT 4.1 居然都记住了。

向左更多

与此同时，还有一则小的消息可以关注：

一开始，GPT-4.1 还因为没有提供安全报告引发了小小的舆论风波，很多研究者批判 OpenAI 降低了其人工智能模型透明度的标准。

OpenAI 的说法是，GPT-4.1 的性能和速度比 GPT-4o 有所提升，但实际上并非前沿模型，因此不需要像性能更强大的模型那样提供安全报告。

今天，两个模型官宣被引入 ChatGPT 后，OpenAI 安全系统负责人 Johannes Heidecke 在 X 上再次申辩：

「在 API 中发布 GPT-4.1 之前，我们进行了评估，以测试该模型的功能和安全性。」

「GPT-4.1 并没有引入新的模式或与模型交互的方式，在智能方面也没有超越 o3。这意味着，这里的安全考虑虽然很重要，但与前沿模型有所不同。」

比较早开始使用 GPT-4.1 的人会觉得，这个模型比其之前的模型更不喜欢「闲聊」，对大多数类型的查询都会给更直接的响应。

用户普遍的感觉是，它的实际性能略微优于 GPT-4o，但超越的真不多。这可能也是 OpenAI 介绍它时主打「实际应用」的原因之一。

「通过密切关注现实世界的开发人员需求 —— 从编码到指令遵循和长期上下文理解 —— 这些模型为构建智能系统和复杂的智能体应用程序开辟了新的可能性。」

想要更显著性能提升的用户，只能期待 OpenAI 的下一个重大升级版本 GPT-5 的到来了，但目前还没有「走漏」任何可靠的消息。耐心等待吧。

以后我们会带来更多好玩有用的 AI 评测，也欢迎大家进群交流。

上一篇：避坑细节(aa扑克网上的挂真的)外挂透明挂辅助器(透视)详细教程(2025已更新)(哔哩哔哩)

下一篇：揭秘一下(云扑克)原来真的有挂(透视)德州之星app有外挂的(详细教程)-哔哩哔哩

终于，GPT-4.1全量上架ChatGPT：大家都看好我，偏偏我也争气

相关内容

热门资讯