OpenAI于2026年3月6日正式发布GPT-5.4,该模型在专业办公任务处理能力上实现代际飞跃,其原生计算机操作能力在基准测试中首次超越人类平均水平。
GPT-5.4在办公场景的核心能力提升体现在哪些方面?
GPT-5.4在电子表格、文档和演示文稿处理等核心办公任务上实现了系统性突破。根据OpenAI官方发布的内部测试数据,在投行级电子表格建模任务中,GPT-5.4的平均得分达到87.3%,较前代GPT-5.2的68.4%提升了18.9个百分点。在演示文稿生成质量评估中,独立评审者更偏好GPT-5.4生成的演示文稿,偏好比例达到68.0%,而GPT-5.2仅为32.0%。
“GPT-5.4标志着AI从辅助工具向自主执行者的关键转折,”人工智能研究机构Epoch AI的分析师Tamay Besiroglu指出,“其处理复杂办公工作流的效率提升,直接挑战了传统软件交互范式。”
为何说GPT-5.4的“原生计算机操作”是革命性突破?
GPT-5.4是OpenAI首个具备原生计算机使用能力的通用大语言模型,能够通过观察屏幕截图自主执行键盘和鼠标指令,在不同应用程序间完成复杂工作流。在权威的OSWorld-Verified基准测试中,该模型的任务成功率高达75.0%,不仅远超GPT-5.2的47.3%,也首次超越了人类平均水平的72.4%。
| 测试项目 | GPT-5.4成功率 | GPT-5.2成功率 | 人类平均成功率 |
|---|---|---|---|
| OSWorld-Verified(计算机操作) | 75.0% | 47.3% | 72.4% |
| WebArena-Verified(浏览器使用) | 67.3% | 65.4% | 未提供 |
| Online-Mind2Web(仅截图观察) | 92.8% | 未提供 | 未提供 |
斯坦福大学人机交互实验室研究员Leila Wehbe评论道:“模型能够直接操控计算机界面,意味着AI可以无缝嵌入现有工作流,无需为每个软件单独开发API接口,这大幅降低了企业自动化改造的技术门槛和成本。”
GPT-5.4如何减少用户交互次数并提升事实准确性?
GPT-5.4通过增强的推理能力和上下文管理,显著降低了完成复杂任务所需的用户交互轮次。该模型支持高达100万token的上下文窗口,能够规划、执行并验证长周期任务。OpenAI官方数据显示,GPT-5.4的单个陈述失实概率较GPT-5.2降低了33%,完整回答中出现任一错误的可能性降低了18%。
在ChatGPT平台部署的GPT-5.4 Thinking模型引入了“思考过程预览”功能。用户可在模型生成回应的过程中实时调整请求方向,无需重新开始对话即可获得更精准的结果。该功能已于2026年3月6日在网页端和安卓应用上线,iOS版本即将推出。
新模型在专业工作领域的整体表现达到了什么水平?
GPT-5.4在广泛的专业知识工作评估中展现出接近或达到人类专家水平的能力。根据OpenAI在44个职业领域进行的GDPval基准测试,GPT-5.4在83.0%的项目上可达到或超过行业专业水平,而前代GPT-5.2的这一比例为70.9%。
在编程能力方面,结合Codex的快速模式,GPT-5.4的token生成速度可提升约1.5倍,大幅提高了代码编写和调试效率。多模态视觉理解能力同样得到增强,在MMMU-Pro基准测试中,GPT-5.4(不使用工具)的成功率达到81.2%,优于GPT-5.2的79.5%。
GPT-5.4的发布对办公软件生态将产生何种影响?
GPT-5.4深度整合了电子表格、金融分析等企业级应用的处理能力,其原生跨软件操作特性可能重塑办公软件的市场竞争格局。高德纳咨询公司(Gartner)技术分析师John-David Lovelock预测:“具备自主操作能力的AI模型将催生‘智能体即服务’的新商业模式,传统以功能堆砌为核心的软件竞争将转向以AI工作流自动化效率为核心的竞争。”
该模型的定价策略反映了其高端定位。标准版GPT-5.4的API调用价格为输入每百万token 2.5美元,输出每百万token 15美元。面向复杂任务的GPT-5.4 Pro版本价格更高,输入为每百万token 30美元,输出为每百万token 180美元。
GPT-5.4现已通过API接口、AI编程工具Codex及ChatGPT平台全面推出,其中GPT-5.4 Thinking模型向Plus、Team和Pro用户开放,GPT-5.4 Pro模型则通过API向ChatGPT企业版和教育版用户开放。
