首页/AI 界/GPT-5.4 为什么值得技术人重新看一眼?从 Computer Use 到 Agent 落地,OpenAI 这次改的不是参数,是方向
AI 界

GPT-5.4 为什么值得技术人重新看一眼?从 Computer Use 到 Agent 落地,OpenAI 这次改的不是参数,是方向

OpenAI 发布的 GPT-5.4 不只是常规模型升级,而是首次将原生 computer-use 能力融入通用模型。本文从 professional work、computer use、Responses API 整合、Codex 联动和企业落地等维度,分析为什么 GPT-5.4 标志着 AI 从认知工具向执行工具的关键转向。

发布时间:2026年4月22日 18:07阅读量:1

这段时间如果你还把 GPT-5.4 理解成 OpenAI 又发了个更强一点的新模型,那多少有点跟不上节奏了。因为 GPT-5.4 最值得技术人重新关注的地方,不是它又把推理、写作、编码往前拱了一截,而是 OpenAI 明明白白地把它放进了一个更大的叙事里:从模型,走向 Agent;从回答,走向执行。

OpenAI 在 2026 年 3 月发布 GPT-5.4 时,直接把它上线到 ChatGPT、API 和 Codex,并将其定义为面向专业工作的前沿模型;同时还特别强调,这是 OpenAI 首个具备原生 computer-use 能力的通用模型。这个表述本身就已经不是普通版本升级的语气了。

为什么这件事重要?

因为技术圈过去两年最常见的一种幻觉,就是以为大模型的核心价值主要体现在会不会答、会不会写、会不会补全代码。这些当然重要,但它们都停留在输出内容层面。真正决定 AI 能不能进入实际生产流程的,往往不是它能不能给你一个聪明答案,而是它能不能真的去操作环境、调用工具、穿过系统边界,把任务做完。

OpenAI 这次把 GPT-5.4 的重点压在 computer use 和专业工作上,本质上是在推动 AI 从认知工具向执行工具转向。

OpenAI 给 GPT-5.4 的官方定位里,有两个词特别值得技术人盯住。一个叫 professional work,另一个叫 computer use。前者意味着它不再只强调聊天体验,而是瞄准文档、表格、演示、编码、工具调用和长任务交付;后者则意味着模型不只是吐文本,而是能通过截图和键鼠操作去理解并操作桌面环境。

OpenAI 公开给出的数据里,GPT-5.4 在 OSWorld-Verified 上达到 75.0% 成功率,远高于 GPT-5.2 的 47.3%,而且还高于它给出的人类基线 72.4%。这不是全面超越人类的通行证,但至少说明一件事:AI 操作电脑这条线,已经从演示级玩具走向了可认真讨论的工程能力。

这里最容易被低估的一点

GPT-5.4 的意义并不只是它自己会点按钮,而是它把 OpenAI 后续整套 Agent 路线都抬高了一截。OpenAI 在 3 月 11 日又发了一篇官方文章,专门讲如何给 Responses API 配上 computer environment,并把这件事定义成让 Agent 工作流变得更快、更可重复、更安全的生产实践。

这说明 OpenAI 自己也很清楚,真正的竞争不在模型会不会动鼠标,而在开发者能不能把这种能力接到真实业务里。换句话说,GPT-5.4 不只是个模型更新,它还是后面整套 Agent 基建的地基。

这背后其实暴露出一个行业共识:未来一年的核心竞争,不再只是模型输出质量,而是 Agent 的任务闭环能力。

你让 AI 写一段代码,很多模型都能做。你让它理解一个已有仓库、切到浏览器验证前端效果、根据页面情况回来改代码、再连远程环境跑测试、最后把结果整理成可交付产物,这就不是补全插件的活了。这种跨工具、跨环境、跨步骤的链条,才是 AI 从聪明变成值钱的地方。OpenAI 在 GPT-5.4 上下重注 computer use,正是在抢这条路线的话语权。

如果你还觉得这只是官方 PPT 里讲故事

那就看看 Codex 后续动作。就在 GPT-5.4 发布后的这段时间里,OpenAI 又把 Codex 大幅往前推,官方标题干脆叫 Codex for (almost) everything。新版 Codex 不只是处理代码,而是加入了 background computer use、应用内浏览、记忆、插件、远程 devbox 连接、并行代理、图像生成等一整套执行能力。

The Verge 的判断非常直接,认为这是 OpenAI 对 Claude Code 的一次正面出击,因为新版 Codex 已经开始能在 macOS 上操作桌面应用,并在后台并行跑多个代理。把 GPT-5.4 和新版 Codex 放在一起看,你就会明白:OpenAI 这次真不是简单发了个模型,而是在把模型能力迅速产品化成可执行工作流。

站在技术人的角度

GPT-5.4 这次最该重新看的地方,其实有三层:

第一层,是它把 computer use 从概念拉成了现实工具能力。

第二层,是它和 Responses API、Codex 绑定之后,开始形成完整的开发者路径,不再只是你在网页上看看效果。

第三层,是它在 OpenAI 产品栈里的角色已经变成了 Agent 时代的底层引擎之一,而不是单纯的聊天模型。

这三层叠在一起,才构成了它值得重新审视的真正原因。

很多技术人真正会感兴趣的

不是 GPT-5.4 比以前聪明多少,而是它到底能不能帮我省掉那些最烦的工作。从目前公开信号看,OpenAI 明显是在往这几个方向发力:

  • 更强的前端与多文件开发任务
  • 更好的网页和桌面操作
  • 更长的上下文
  • 更可编排的 Agent 执行流程
  • 更贴近办公室工具和知识工作的落地场景

Axios 当时就提到,OpenAI 在 GPT-5.4 上强化了办公与表格工作,同时让 Codex 提前拿到原生 computer use、更多工具和连接器搜索,以及最高 1M token 的上下文支持。你不一定今天就把它接进所有生产流程,但你最好别再把它当多一个聊天模型来理解。

更现实的一层

OpenAI 已经在开始把这条路线往企业里硬推。路透社 4 月 21 日报道,OpenAI 正和 Accenture、Capgemini、CGI、Cognizant、Infosys、PwC 以及 Tata Consultancy Services 等咨询与系统集成公司合作,推动 Codex 在大型企业中的落地,并推出 Codex Labs,把 OpenAI 专家更深地嵌进客户组织内部,帮助他们把 Codex 接进系统和流程。

报道还提到,Codex 的开发者用户已经超过 400 万,而且短时间内增长很快。对技术团队来说,这个信号的含义非常直白:AI Coding 和 Agent 工具,已经不是技术圈好奇玩具,而是在进入真实预算。

但这里也得泼点冷水

GPT-5.4 值得重新看,不代表它已经到了闭眼上生产的程度。OpenAI 自己在 ChatGPT agent 的安全说明和帮助文档里,就反复强调 takeover mode、敏感输入不要直接交给 Agent、只启用当前任务需要的应用、遇到可疑行为立刻停止任务等边界。

说白了,AI 会操作电脑这件事,价值和风险是一起上涨的。它能替你点对按钮,也可能替你点错按钮;它能帮你穿过没有 API 的老系统,也会把 prompt injection、网页误导、权限滥用这些问题一起带进来。

真正成熟的判断,不是因为它很新就盲目吹,也不是因为它还会犯错就一棍子打死,而是承认这条路线已经成型,但还远没到可以无脑托付一切的程度。

从竞争格局看

GPT-5.4 这次最值得注意的,还在于它把 OpenAI 放回了 Agent 执行层的正面战场。Anthropic 在 2026 年 2 月发布 Claude Sonnet 4.6 时,就明确把 coding、computer use、long-context reasoning 和 agent planning 一起打包成核心升级方向;Google 的 Gemini 3.1 Pro 也被官方写成是为了推进更复杂的 agentic workflows,并在 Vertex AI 中单独提供了更偏 custom tools 和 bash 的端点。

也就是说,行业现在已经不是谁家模型更会聊天的争论,而是谁家模型更能带着工具和环境去干活的比赛。GPT-5.4 值得重新看,恰恰是因为它代表 OpenAI 在这场比赛里重新出手了,而且出手很重。

总结

这篇文章如果一定要压缩成一句最实用的话,那就是:GPT-5.4 值得技术人重新看一眼,不是因为它又多会说了点什么,而是因为它开始更认真地去做事了。

你可以暂时不用它,但你不能再用旧眼光看它。因为当一个模型开始原生支持 computer use,背后又连着 Responses API、Codex、企业顾问渠道和 Agent 安全边界设计时,它就不再只是一个更强模型,而是在往下一代工作执行层靠拢。

谁先看懂这件事,谁就能更早判断:未来应该学的是怎么写 prompt,还是怎么指挥一套会动手的系统。

答案其实已经越来越明显了。

问题求助

没能解决你的问题?直接问我

如果你遇到任何技术问题无法解决,可以在这里提交求助。我会尽快查看并回复你。

支持作者

如果这篇文章帮到了你,可以支持我

扫码打赏,支持我持续更新原创排障文章。

打赏二维码