OpenAI最强大的GPT模型

快科技3月6日报道,OpenAI今日正式推出全新大型模型GPT-5.4,被誉为专业工作最强大、最高效、最前沿的模型。与之前的GPT-5.2相比,GPT-5.4在推理能力、编程能力以及处理专门的办公任务方面都有显着提升,尤其是在电子表格、PPT等复杂办公场景中。本次更新带来两个版本:擅长复杂推理任务的GPT-5.4 Thinking和性能更强大、满足企业高端需求的GPT-5.4 Pro。其中,GPT-5.4 Thinking主要针对付费用户,GPT-5.4 Pro针对企业级客户。 GPT-5.4的一大亮点是OpenAI首次将原生计算机控制能力带入通用模型。该模型不仅可以生成文本和代码,还可以直接与计算机软件交互,根据屏幕截图查看网页并进行控制鼠标和键盘来完成任务。它还提供与电子表格和财务分析工具等业务应用程序的深度集成。在 OSWorld-Verified 计算机控制基准测试中,GPT-5.4 取得了 75.0% 的任务成功率,超越了人类 72.4% 的平均水平,与 GPT-5.2 的 47.3% 相比有了显着提升。在编程功能方面,当Codex激活快速模式时,GPT-5.4令牌生成速度提高了约1.5倍,大大提高了编写和调试代码的效率。我们知道,GPT-5.4 在 API 和 Codex 中可以同时支持多达 100 万个令牌的上下文窗口。这是 OpenAI 迄今为止提供的最大的上下文功能。适合计划、执行和验证跨步骤的长链接任务。价格方面,GP在API接口上。 T-5.4 的单一代币价格略高于 GPT-5.2,入口代币为每百万 2.5 美元,退出代币为 15 美元。对于更高的性能 GPT-5.4 Pro,每百万输入代币价格为 30 美元,输出代币价格为 180 美元。然而,更高的代币效率实际上降低了许多任务的总体成本。 GPT-5.4 Thinking 现已可供 Plus、Team 和 Pro 订阅者使用,并取代了之前的 GPT-5.2 Thinking。 GPT-5.2 Thinking计划于2026年6月5日正式下线。相关报道:OpenAI GPT-5.4发布:编码超越前代,知识工作逼近人类专家水平。据 IT之家 3 月 6 日消息,OpenAI 今天正式推出了模型系列 GPT-5.4,包括针对 ChatGPT 和 API 的 GPT-5.4 Thinking 版本,以及针对复杂任务的 GPT-5.4 Pro 版本。书。 OpenAI 首次旨在将尖端的代理、编码和推理能力集成到单一模型中,以提高专业工作的效率和准确性。主要功能更新 ChatGPT 在 GPT-5.4 Thinking 中添加了新的“思维过程预览”功能。型号在处理复杂查询时提前展示其推论。用户可以在模型响应过程中实时调整指导,减少权衡并更快地获得满足其需求的结果。 IT之家从消息人士处获悉,该功能已在网页版和 Android App 上上线,iOS 版也即将上线。新模型还深度提高了网络探索能力,使它们能够更好地保持长期上下文一致性,特别是在处理高度专业化的查询时。对于需要较长时间反思的问题,GPT-5.4 思考可以更好地识别对话中的先前步骤,并确保答案始终相关且连贯。尽量保持性。在codex和API层面,GPT-5.4是第一个具有原生计算机可用性能力的通用OpenAI模型,支持通过屏幕截图和键盘鼠标命令与计算机交互以完成复杂的工作应用程序之间的 kflows。 GPT-5.4系列模型支持多达100万个令牌的上下文窗口,允许代理计划、执行和验证长期任务。知识工作绩效显着提升 报告称,GPT-5.4在专业工作领域取得了巨大进步。在 OpenAI 测试的 44 个专业 GDPval 基准中,GPT-5.4 有 83.0% 的项目能够达到或超过行业专业水平,而上一代 GPT-5.2 的这一比例为 70.9%。在投行级别的内部电子表格建模任务测试中,GPT-5.4的平均得分为87.3%,显着高于GPT-5.2的68.4%。在评估演示文稿时,审阅者更喜欢 GPT-5.4 生成的演示文稿(GPT-5.2 为 68.0%,而 GPT-5.2 为 32.0%)。主要优点是更强的美学设计、更丰富的视觉多样性以及更有效地利用图像生成。 GPT-5.4 已成为 OpenAI 迄今为止最“基于事实”的模型减少反应的数量。与GPT-5.2相比,单个语句的错误率降低了33%,整个响应的错误概率降低了18%。计算机使用和视觉能力 GPT-5.4 在计算机使用基准测试中表现良好。在 OSWorld 验证的基准测试上(屏幕截图、键盘鼠标与 PC 桌面环境的交互),GPT-5.4 取得了 75.0% 的成功率,远远超过 GPT-5.2 的 47.3%,甚至优于人类表现(72.4%)。 WebArena-Verified在浏览器可用性测试中,GPT-5.4 在结合 DOM 和基于屏幕截图的交互时取得了 67.3% 的成功率(相比之下,GPT-5.2 为 65.4%)。 Online-Mind2Web测试只需看截图就可以达到92.8%的成功率。这明显高于 ChatGPT Atlas 代理模式的 70.9%。视觉识别能力方面,GPT-5.4在MMMU-Pro的视觉推理与理解测试中取得了81.2%的成功率,优于其他同类产品。全科医生的 79.5%T-5.2。在OmniDocBench文档分析测试中,GPT-5.4的平均错误率下降至0.109(GPT-5.2为0.140)。编码工具和功能的生态系统 此外,GPT-5.4 还融合了 GPT-5.3-Codex 的编码优势,在 SWE-Bench Pro 基准测试中,GPT-5.3-Codex 等于或优于 GPT-5.3-Codex,且延迟更低。 Codex 的“/fast”模式允许令牌速度提高 1.5 倍,同时保持相同的智能水平。借助5.4中新的“工具搜索”功能,该系列现在可以高效地处理各种工具。启用工具搜索后,Scale 的 MCP Atlas 基准测试发现总代币消耗减少了 47%,同时保持了相同的准确性。同时,GPT-5.4 还可以在 Toolathlon 基准测试中以更少的交互轮数实现更高的准确度,该基准测试代理使用真实工具和 API 完成多步骤任务的能力。同时,GPT-5.4网络搜索功能也已上线改善了。在 BrowseComp 基准测试(测试代理持续浏览网页以查找难以找到的信息的能力)中,GPT-5.4 的性能比 GPT-5.2 提高了 17%,GPT-5.4 Pro 创下了 89.3% 的新高。安全性和可用性OpenAI表示,GPT-5.4延续了GPT-5.3-Codex的安全保障,并引入了新的开源评估“CoT可控性”。在本次测试中,发现GPT-5.4 Thinking几乎没有控制思维链的能力,这对安全监控很有用。在价格方面,GPT-5.4 API 的每个代币价格比 GPT-5.2 更高,但其更高的代币效率可以减少许多任务的总代币消耗。批量和灵活的费率是标准 API 费率的一半,具有双重优先级。发布计划 GPT-5.4 Thinking 取代 GPT-5.2,并将提供给 ChatGPT Plus、Team 和 Thinking Pro 用户。 GPT-5.2 思维将长期保留在模型选择器的旧模型部分中ee 个月,直至 2026 年 6 月 5 日停用。使用 Enterprise 和 Edu 计划的用户可以通过其管理员设置启用早期访问。 GPT-5.4 Pro 适用于 Pro 和 Enterprise 计划用户。在 API 中,GPT-5.4 以 gpt-5.4 名称受支持,GPT-5.4 Pro 以 gpt-5.4-pro 名称提供给需要最高性能的开发人员。 Codex GPT-5.4 支持实验性的 100 万个上下文窗口功能。 OpenAI表示,GPT-5.4是首个集成前沿编码能力的主流推理模型,将在ChatGPT、API和Codex上同步发布。然而,快照模型和思维模型将以不同的速度演化。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
请注意:以上内容(包括图片和视频,如有)可能无法使用ble在社交媒体平台上,由网易号用户上传发布,网易号仅提供信息存储服务。

此条目发表在吃瓜热门分类目录,贴了标签。将固定链接加入收藏夹。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注