GPT-5.5 发布

  • openai
  • 发布于 2 天前
  • 阅读 122

OpenAI 发布 GPT-5.5,重点强化了代理式编码、电脑操作、知识工作和科学研究能力。文章展示了它在 Terminal-Bench、SWE-Bench、OSWorld、GDPval、BrowseComp、FrontierMath、CyberGym 等评测中的提升,并强调其在更少 token、更低延迟下完成复杂任务的效率优势。文中还介绍了 GPT-5.5 Pro、Thinking 模式、长上下文能力、网络与工具使用能力,以及用于网络安全与生物安全的更严格防护和可信访问机制。

GPT-5.5 :OpenAI 面向真实工作的新一类智能

我们正在发布 GPT‑5.5,这是我们迄今为止最聪明、最直观易用的模型,也是迈向一种在电脑上完成工作的全新方式的下一步。

GPT‑5.5 能更快理解你想做什么,并且可以自己承担更多工作。它擅长编写和调试代码、在线研究、分析数据、创建文档和电子表格、操作软件,以及在不同工具之间切换,直到任务完成。你不必再仔细管理每一步,只需把一个杂乱、多部分的任务交给 GPT‑5.5,并相信它会进行规划、使用工具、检查结果、在模糊不清中推进,并持续完成任务。

这些提升在 agentic coding、computer use、知识工作和早期科学研究中尤其明显——这些领域的进展依赖于跨上下文推理并随着时间推移采取行动。GPT‑5.5 在不牺牲速度的情况下实现了这种智能跃升:更大、更强的模型通常服务更慢,但 GPT‑5.5 在真实世界服务中的 per-token latency 与 GPT‑5.4 持平,同时展现出高得多的智能水平。它完成相同 Codex 任务所使用的 token 也明显更少,因此不仅更强,而且更高效。

我们发布 GPT‑5.5 时配备了迄今为止最强的一套 safeguards,旨在减少滥用,同时保留对有益工作的访问。我们在完整的 safety 和 preparedness 框架下评估了该模型,与内部和外部 redteamers 合作,为高级 cybersecurity 和 biology 能力增加了针对性测试,并在发布前从近 200 个受信任的早期访问合作伙伴那里收集了真实使用场景的反馈。

今天,GPT‑5.5 正在向 ChatGPT 和 Codex 中的 Plus、Pro、Business 和 Enterprise 用户推送,GPT‑5.5 Pro 正在向 ChatGPT 中的 Pro、Business 和 Enterprise 用户推送。API 部署需要不同的 safeguards,我们正在与合作伙伴和客户密切合作,处理大规模提供服务时的安全与 security 要求。我们很快会将 GPT‑5.5 和 GPT‑5.5 Pro 带到 API 中。

GPT-5.5 GPT-5.4 GPT-5.5 Pro GPT-5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
Terminal-Bench 2.0 82.7% 75.1% - - 69.4% 68.5%
Expert-SWE (Internal) 73.1% 68.5% - - - -
GDPval (wins or ties) 84.9% 83.0% 82.3% 82.0% 80.3% 67.3%
OSWorld-Verified 78.7% 75.0% - - 78.0% -
Toolathlon 55.6% 54.6% - - - 48.8%
BrowseComp 84.4% 82.7% 90.1% 89.3% 79.3% 85.9%
FrontierMath Tier 1–3 51.7% 47.6% 52.4% 50.0% 43.8% 36.9%
FrontierMath Tier 4 35.4% 27.1% 39.6% 38.0% 22.9% 16.7%
CyberGym 81.8% 79.0% - - 73.1% -

Model capabilities

OpenAI 正在构建 agentic AI 的全球基础设施,使世界各地的个人和企业都能借助 AI 完成工作。在过去一年里,我们看到 AI 显著加速了 software engineering。随着 GPT‑5.5 在 Codex 和 ChatGPT 中的推出,这种变革也开始延伸到科学研究以及人们在电脑上完成的更广泛工作。

在这些领域中,GPT‑5.5 不仅更聪明;它解决问题的方式也更高效,通常用更少的 token 和更少的重试就能得到更高质量的输出。在 Artificial Analysis 的 Coding Index 上,GPT‑5.5 以竞争性 frontier coding models 一半的成本提供了 state-of-the-art 的智能水平。

The Artificial Analysis Intelligence Index⁠(opens in a new window) is a weighted average of 10 evals ran by an external party: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.

Agentic coding

GPT‑5.5 是我们迄今为止最强的 agentic coding 模型。在 Terminal-Bench 2.0 中,这项测试要求模型完成需要规划、迭代和工具协调的复杂命令行工作流,而它达到了 82.7% 的 state-of-the-art 准确率。在 SWE-Bench Pro 中,这项评估衡量模型解决真实世界 GitHub issue 的能力,它达到 58.6%,比以往模型更能在单次尝试中端到端解决任务。在 Expert-SWE 中,这是我们针对长周期 coding 任务的内部 frontier eval,估计人类完成时间中位数为 20 小时,GPT‑5.5 也优于 GPT‑5.4。

在这三项 eval 中,GPT‑5.5 都在提升 GPT‑5.4 分数的同时使用了更少的 token。

该模型的 coding 优势在 Codex 中尤其明显,它可以承担从实现和重构到调试、测试和验证的各类工程工作。早期测试表明,GPT‑5.5 在真实工程工作所依赖的行为上更出色,例如跨大型系统保持上下文、在模糊的故障中进行推理、用工具检查假设,以及将变更贯穿到周边 codebase 中。

除了 benchmark 之外,早期测试者表示 GPT‑5.5 展现出更强的理解系统结构的能力:为什么某些东西会失败,修复需要落在哪里,以及 codebase 中还有什么会受到影响。

“这是我用过的第一个在概念理解上真正清晰的 coding 模型。”

Every 的创始人兼 CEO Dan Shipper 将 GPT‑5.5 描述为“这是我用过的第一个在概念理解上真正清晰的 coding 模型”。

在发布一个 app 后,他花了好几天调试一个上线后的问题,最后请来他最好的工程师之一重写系统的一部分。为了测试 GPT‑5.5,他实际上把时间倒回去:模型能否查看这个损坏的状态,并产出工程师最终决定采用的那种重写方案?GPT‑5.4 做不到,GPT‑5.5 可以。

“它真的让我感觉像是在和更高一级的智能一起工作,甚至几乎有一种被尊重的感觉。”

MagicPath 的 CEO Pietro Schirano 在 GPT‑5.5 将一个包含数百个 frontend 和 refactor 变更的 branch,与一个同样发生了大量变化的 main branch 合并时,看到了类似的跃升:它一次性在大约 20 分钟内完成了这项工作。

测试该模型的资深工程师表示,GPT‑5.5 在推理和自主性方面明显强于 GPT‑5.4 和 Claude Opus 4.7,能够提前发现问题,并在没有明确提示的情况下预测测试和 review 需求。某个案例中,一名工程师让它重构一个协作式 markdown 编辑器中的评论系统,回来时发现一个 12-diff 的 stack 已经几乎完成。还有人说,他们只需要极少的实现修正,并且与 GPT‑5.4 相比,对 GPT‑5.5 的计划更有信心。

一位来自 NVIDIA、提前获得该模型访问权的工程师甚至说:“失去 GPT‑5.5 的访问权限,感觉就像我的一条胳膊被截掉了。”

“GPT-5.5 明显比 GPT-5.4 更聪明、更持久,coding 性能更强,工具使用也更可靠。它能显著更长时间地保持在任务上而不提前停止,这对我们的用户交给 Cursor 的复杂、长时间运行的工作最为重要。”

— Cursor 联合创始人兼 CEO Michael Truell

知识工作

让 GPT‑5.5 在 coding 上表现出色的相同优势,也使它在电脑上的日常工作中同样强大。由于该模型更善于理解意图,它可以更自然地完成知识工作的整个闭环:查找信息、理解重点、使用工具、检查输出,并把原始材料转化为有用成果。

在 Codex 中,GPT‑5.5 比 GPT‑5.4 更擅长生成文档、电子表格和幻灯片演示。Alpha testers 表示,它在运营研究、电子表格建模,以及把杂乱的商业输入转化为计划等工作上,优于过去的模型。结合 Codex 的 computer use 技能,GPT‑5.5 让我们更接近这样一种体验:模型真的能和你一起使用电脑——看屏幕内容、点击、输入、导航界面,并精确地在不同工具之间切换。

OpenAI 内部团队已经在真实工作流中使用这些能力。如今,公司超过 85% 的员工每周都会在包括软件工程、财务、沟通、营销、数据科学和产品管理等职能中使用 Codex。在 Comms 中,团队使用 Codex 中的 GPT‑5.5 分析了六个月的 speaking request 数据,建立了一个评分和风险框架,并验证了一个自动化 Slack agent,使低风险请求可以自动处理,而高风险请求仍会转交人工审查。在 Finance 中,团队使用 Codex 审查了 24,771 份 K-1 税表,总计 71,637 页,使用的 workflow 排除了个人信息,并帮助团队相比前一年将该任务加快了两周。在 Go-to-Market 团队中,一名员工自动化生成每周业务报告,每周节省 5-10 小时。

在 ChatGPT 中,GPT‑5.5 Thinking 为更难的问题带来了更快的帮助,用更聪明、更简洁的回答帮助你更高效地推进复杂工作。它擅长 coding、research、信息综合与分析,以及文档密集型任务,尤其是在使用 plugins 时。

GPT‑5.5 Pro 中,早期测试者看到 ChatGPT 能够承担的工作难度和质量都有显著提升,同时 latency 的改善让它更适合要求严苛的任务。与 GPT‑5.4 Pro 相比,测试者发现 GPT‑5.5 Pro 的回答明显更全面、结构更清晰、更准确、更相关且更有用,尤其在 business、legal、education 和 data science 方面表现突出。

GPT‑5.5 在多个反映这类工作的 benchmark 上达到了 state-of-the-art 性能。在 GDPval⁠⁠ 上,这项测试衡量 agents 在 44 种职业中产出规范明确的知识工作的能力,GPT‑5.5 得分为 84.9%。在 OSWorld-Verified 上,这项测试衡量模型能否独立操作真实 computer 环境,它达到 78.7%。而在 Tau2-bench Telecom 上,这项测试评估复杂的 customer-service 工作流,它在不进行 prompt tuning 的情况下达到 98.0%。GPT‑5.5 在其他知识工作 benchmark 上也表现强劲:FinanceAgent 为 60.0%,internal investment-banking modeling tasks 为 88.5%,OfficeQA Pro 为 54.1%。

“GPT-5.5 为执行密集型工作提供了所需的持续性能。该模型在 NVIDIA GB200 NVL72 systems 上构建和服务,使我们的团队能够从自然语言 prompts 直接端到端交付功能,把 debug 时间从几天缩短到几小时,并在复杂 codebase 中把数周的试验变成一夜之间的进展。它不只是更快的 coding——它是一种新的工作方式,帮助人们以本质上不同的速度开展工作。”

— NVIDIA 企业 AI 副总裁 Justin Boitano

科学研究

GPT‑5.5 在科学和技术研究工作流上也有提升,这类工作不只是回答一个难题。研究人员需要探索一个想法、收集证据、测试假设、解释结果,并决定下一步尝试什么。GPT‑5.5 在持续完成这个循环方面比其他模型更强。

值得注意的是,GPT‑5.5 在 GeneBench ⁠(opens in a new window) 上比 GPT‑5.4 有明显改进。GeneBench 是一个新的 eval,聚焦遗传学和定量生物学中的多阶段科学数据分析。这些问题要求模型在最少监督指导下,对可能模糊或有错误的数据进行推理,处理现实中的障碍,如隐藏混杂因素或 QC 失败,并正确实现和解释现代统计方法。考虑到这里的任务通常对应科学专家数天的项目,该模型的表现尤为突出。

类似地,在 BixBench⁠(opens in a new window) 上,这是一个围绕真实世界 bioinformatics 和数据分析设计的 benchmark,GPT‑5.5 在已公布分数的模型中取得了领先表现。该模型的科学能力现在已经强到可以作为真正的 co-scientist,切实加速生物医学研究前沿的进展。

另一个例子中,带有自定义 harness 的 GPT‑5.5 内部版本帮助发现了关于 Ramsey numbers 的一个新证明⁠(opens in a new window),Ramsey numbers 是组合数学中的核心对象之一。组合数学研究离散对象如何组合在一起:图、网络、集合和模式。Ramsey numbers 大致回答的是,一个网络需要大到什么程度,才能保证某种秩序一定会出现。该领域的结果很少,而且通常技术难度很高。在这里,GPT‑5.5 找到了一个关于 off-diagonal Ramsey numbers 长期存在的渐近事实的证明,后来在 Lean 中得到验证。这个结果是一个具体例子,表明 GPT‑5.5 不仅能贡献代码或解释,还能在核心研究领域给出令人惊讶且有用的数学论证。

早期测试者在 ChatGPT 中使用 GPT‑5.5 Pro 时,更像是把它当作研究伙伴,而不是一次性答案引擎:在多个轮次中批判 manuscript、压力测试技术论证、提出分析建议,并与 code、笔记和 PDF 上下文协作。共同点在于,GPT‑5.5 更擅长帮助研究人员从问题走到实验,再到产出。

Jackson Laboratory for Genomic Medicine 的免疫学教授兼研究员 Derya Unutmaz 使用 GPT‑5.5 Pro 分析了一个包含 62 个样本和近 28,000 个基因的 gene-expression 数据集,生成了一份详细的研究报告,不仅总结了发现,还提出了关键问题和见解——他说,这项工作原本需要他的团队数月才能完成。

波兰波兹南 Adam Mickiewicz 大学的数学助理教授 Bartosz Naskręcki 使用 Codex 中的 GPT‑5.5,在 11 分钟内通过一个单一 prompt 构建了一个代数几何 app,可视化两个二次曲面的交线,并将得到的曲线转换为 Weierstrass model。

随后,他又为该 app 增加了更稳定的奇点可视化和可在后续工作中复用的精确系数。对他来说,更大的变化在于 Codex 现在可以帮助实现以前需要专门工具的自定义数学可视化和 computer-algebra workflow。综合来看,这些例子表明 GPT‑5.5 正在把专家意图转化为可用的研究工具和分析。

Credit: Bartosz Naskręcki⁠(opens in a new window)

Prompt:# 代数几何曲面交点

制作一个 app,绘制两个二次曲面,并将交线用红色着色。使用 computational Riemann-Roch theorem 将其转换为 Weierstrass curve。

主窗口

两个带色调的曲面,具有略微透明的阴影,高质量渲染后沿着一条红色的代数曲线相交

支持双向鼠标旋转,完整的 pinch 机制用于缩放,haptic press 以显示带有滑块的小菜单,用于改变每个曲面的系数;通过 Z-buffor level 检测

右侧窗口

通过 effective Riemann-Roch theorem formulas 即时计算出的短 Weierstrass equation(在 Q 或二次域扩张上)

环境模式,所有控制项都隐藏,用户可以欣赏形状之美

规范

App 在浏览器中运行,轻量级实现,采用 full stack 最新 libraries,可移植、可部署

文档

Git repo,journal,plan(Markdown 文件)

“使用 OpenAI 的新 GPT‑5.5 模型在我们的 harness 中工作,令人大受鼓舞;让它对海量生化数据集进行推理以预测人体药物结果,然后看到它在我们最难的 drug discovery eval 上带来显著的准确率提升。如果 OpenAI 一直这样持续发力,到今年年底,drug discovery 的基础将会发生改变。”

— Axiom Bio 联合创始人兼 CEO Brandon White

下一代推理效率

要以 GPT‑5.4 的 latency 提供 GPT‑5.5 服务,需要把 inference 重新设计为一个集成系统,而不是一组彼此孤立的优化。GPT‑5.5 是在 NVIDIA GB200 和 GB300 NVL72 systems 上共同设计、共同训练并共同部署的。Codex 和 GPT‑5.5 在我们实现性能目标的过程中发挥了关键作用。Codex 帮助团队更快地从想法推进到可 benchmark 的实现,构思方法、连接实验,并帮助识别哪些优化值得进一步投入。GPT‑5.5 帮助发现并实现了 stack 本身中的关键改进。简而言之,是模型帮助改进了为它提供服务的基础设施。

其中一项改进是 load balancing 和 partitioning heuristics。在 GPT‑5.5 之前,我们把一个 accelerator 上的请求拆分为固定数量的 chunks,以便在 computing cores 之间平衡工作,确保大请求和小请求都能在同一 GPU 上运行。然而,预先确定的静态 chunks 数量并不适合所有 traffic shapes。为了更好地利用 GPU,Codex 分析了数周的 production traffic patterns,并编写了自定义 heuristic algorithms 来最优地划分和均衡工作。这项工作产生了远超预期的影响,使 token generation speeds 提高了 20% 以上。

为每个人的安全推进 cybersecurity

为那些非常擅长发现和修补 security vulnerabilities 的模型做好准备,是一项团队运动,并且需要整个生态系统共同努力提升韧性,通过民主化的 model access 和迭代式部署,为 cyber defense 的下一个时代⁠ 做准备。

frontier models 在 cybersecurity 方面正变得越来越强。这些能力将会广泛分布,而我们认为最好的前进路径,是确保它们可以被用于加速 cyber defense 并增强整个生态系统。

GPT‑5.5 是朝着能够解决 cybersecurity 等世界最严峻挑战的 AI 迈出的渐进但重要的一步。随着 12 月的 GPT‑5.2,我们主动部署了必要的 cyber safeguards⁠ 来限制模型潜在的 cyber abuse;现在随着 GPT‑5.5,我们正在部署更严格的 classifiers 来识别潜在 cyber risk,一些用户在最初可能会觉得这有些烦人,因为我们会随着时间进行调整。

多年来,随着我们的模型逐步提升,我们一直在 Preparedness Framework⁠(opens in a new window) 中将 cybersecurity 识别为一个类别,同时迭代地开发和校准 mitigations,以便能够负责任地发布具有实质性 cybersecurity 能力的模型。

  • 我们正在为这一级别的 cyber capability 部署行业领先的 safeguards。 我们在去年通过 GPT‑5.2⁠(opens in a new window) 首次引入了 cyber-specific safeguards,之后我们在后续部署中持续测试、改进并扩展这些措施。对于 GPT‑5.5,我们围绕更高风险活动、敏感 cyber 请求设计了更严格的控制,并为重复滥用增加了保护。通过我们在模型 safety、authenticated usage 和对不允许使用行为的监测方面的投入,广泛访问才成为可能。过去数月里,我们一直与外部专家合作,开发、测试并迭代这些 safeguards 的鲁棒性。借助 GPT‑5.5,我们正在确保开发者可以轻松保护他们的 code,同时对最有可能被恶意行为者用于造成危害的 cyber workflows 设置更强控制。
  • 我们正在扩大访问,以在各个层级加速 cyber defense。 我们正通过 Trusted Access for Cyber⁠ 提供我们的 cyber-permissive models,首先从 Codex 开始,其中包括对 GPT‑5.5 advanced cybersecurity 能力的扩展访问,对在发布时满足某些 trust signals⁠(opens in a new window) 的已验证用户限制更少。负责 defending critical infrastructure⁠ 的组织可以申请访问像 GPT‑5.4‑Cyber 这样的 cyber-permissive models,同时满足严格的 security 要求,以使用这些模型保护其内部系统。这为广泛的已验证防御者提供了更强大的工具,用于正当的 security 工作,并减少不必要的摩擦,以确保我们将重要防御能力的访问民主化。用户可以在 chatgpt.com/cyber⁠(opens in a new window) 申请 trusted access,以在使用 GPT‑5.5 进行已验证的防御工作时减少不必要的拒绝。
  • 我们正在与政府合作伙伴合作,帮助保护公众所依赖的关键基础设施。 我们正共同探索 advanced AI 如何支持负责维护人们所依赖系统的可信官员的防御工作,从确保重要纳税人数据安全的数字系统,到当地社区的电网和供水系统。

我们依据 Preparedness Framework⁠(opens in a new window) 将 GPT‑5.5 的 biological/chemical 和 cybersecurity 能力视为 High。虽然 GPT‑5.5 没有达到 Critical cybersecurity capability level,但我们的评估和测试表明,它的 cybersecurity 能力相比 GPT‑5.4 又上了一个台阶。

此外,GPT‑5.5 在发布前还经历了完整的 safety 和 governance 流程,包括 preparedness evaluations、特定领域测试、针对 advanced biology 和 cybersecurity 能力的新定向评估,以及与外部专家开展的充分测试。更多细节请参见 GPT‑5.5 system card⁠(opens in a new window)

这项工作体现了我们更广泛的 AI resilience 方法。随着模型能力提升,我们认为这是必要的。我们希望强大的 AI 能够被用于防御系统、机构和公众的人使用。可行的路径是 trusted access、随着能力提升而扩展的 robust safeguards,以及检测和应对严重滥用的 operational capacity。

可用性与定价

今天,GPT‑5.5 正在向 ChatGPT 和 Codex 中的 Plus、Pro、Business 和 Enterprise 用户推送,GPT‑5.5 Pro 正在向 ChatGPT 中的 Pro、Business 和 Enterprise 用户推送。我们很快会将 GPT‑5.5 和 GPT‑5.5 Pro 带到 API 中。

在 ChatGPT 中,GPT‑5.5 Thinking 可供 Plus、Pro、Business 和 Enterprise 用户使用。GPT‑5.5 Pro 专为更难的问题和更高准确度的工作而设计,可供 Pro、Business 和 Enterprise 用户使用。

在 Codex 中,GPT‑5.5 可供 Plus、Pro、Business、Enterprise、Edu 和 Go 方案使用,context window 为 400K。GPT‑5.5 也可在 Fast mode 中使用,token 生成速度快 1.5 倍,费用为 2.5 倍。

对于 API 开发者,gpt-5.5 很快将在 Responses 和 Chat Completions APIs 中提供,价格为每 1M input tokens 5 美元、每 1M output tokens 30 美元,context window 为 1M。Batch 和 Flex 定价为标准 API 费率的一半,而 Priority processing 的价格为标准费率的 2.5 倍。我们还将在 API 中发布 gpt-5.5-pro,以获得更高准确度,价格为每 1M input tokens 30 美元、每 1M output tokens 180 美元。完整详情请参见 pricing page⁠

虽然 GPT‑5.5 的定价高于 GPT‑5.4,但它既更智能,也更具 token 效率。在 Codex 中,我们经过精心调优,使 GPT‑5.5 在大多数用户场景下用更少的 token 提供比 GPT‑5.4 更好的结果,同时在各订阅层级继续提供充足的使用额度。

评估

Coding

Eval GPT-5.5 GPT‑5.4 GPT-5.5 Pro GPT‑5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
SWE-Bench Pro (Public) * 58.6% 57.7% - - 64.3% 54.2%
Terminal-Bench 2.0 82.7% 75.1% - - 69.4% 68.5%
Expert-SWE (Internal) 73.1% 68.5% - - - -

*Labs 已在该 eval 上指出memorization 证据⁠(opens in a new window)

Professional

Eval GPT-5.5 GPT‑5.4 GPT-5.5 Pro GPT‑5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
GDPval (wins or ties) 84.9% 83.0% 82.3% 82.0% 80.3% 67.3%
FinanceAgent v1.1 60.0% 56.0% - 61.5% 64.4% 59.7%
Investment Banking Modeling Tasks (Internal) 88.5% 87.3% 88.6% 83.6% - -
OfficeQA Pro 54.1% 53.2% - - 43.6% 18.1%

Computer use and vision

Eval GPT-5.5 GPT‑5.4 GPT-5.5 Pro GPT‑5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
OSWorld-Verified 78.7% 75.0% - - 78.0% -
MMMU Pro (no tools) 81.2% 81.2% - - - 80.5%
MMMU Pro (with tools) 83.2% 82.1% - - - -

Tool use

Eval GPT-5.5 GPT‑5.4 GPT-5.5 Pro GPT‑5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
BrowseComp 84.4% 82.7% 90.1% 89.3% 79.3% 85.9%
MCP Atlas** 75.3% 70.6% - - 79.1% 78.2%
Toolathlon 55.6% 54.6% - - - 48.8%
Tau2-bench Telecom***<br>(original prompts) 98.0% 92.8% - - - -

** MCP Atlas:来自 Scale AI 在最新 2026 年 4 月更新后的结果。

*** Tau2-bench telecom:5.5 和 5.4 使用 original prompts 的结果,即未进行 prompt 调整。这不包括其他使用 prompt 调整进行评估的 labs 结果。

Academic

Eval GPT-5.5 GPT‑5.4 GPT-5.5 Pro GPT‑5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
GeneBench 25.0% 19.0% 33.2% 25.6% - -
FrontierMath Tier 1–3 51.7% 47.6% 52.4% 50.0% 43.8% 36.9%
FrontierMath Tier 4 35.4% 27.1% 39.6% 38.0% 22.9% 16.7%
BixBench 80.5% 74.0% - - - -
GPQA Diamond 93.6% 92.8% - 94.4% 94.2% 94.3%
Humanity's Last Exam (no tools) 41.4% 39.8% 43.1% 42.7% 46.9% 44.4%
Humanity's Last Exam (with tools) 52.2% 52.1% 57.2% 58.7% 54.7% 51.4%

Cybersecurity

Eval GPT-5.5 GPT‑5.4 GPT-5.5 Pro GPT‑5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
Capture-the-Flags challenge tasks (Internal)**** 88.1% 83.7% - - - -
CyberGym 81.8% 79.0% - - 73.1% -

**** 在 system cards 中使用的最难 CTF 的扩展版本,增加了额外的高难度挑战。

Long context

Eval GPT-5.5 GPT‑5.4 GPT-5.5 Pro GPT‑5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
Graphwalks BFS 256k f1 73.7% 62.5% - - 76.9% -
Graphwalks BFS 1mil f1 45.4% 9.4% - - 41.2% (Opus 4.6) -
Graphwalks parents 256k f1 90.1% 82.8% - - 93.6% -
Graphwalks parents 1mil f1 58.5% 44.4% - - 72.0% (Opus 4.6) -
OpenAI MRCR v2 8-needle 4K-8K 98.1% 97.3% - - - -
OpenAI MRCR v2 8-needle 8K-16K 93.0% 91.4% - - - -
OpenAI MRCR v2 8-needle 16K-32K 96.5% 97.2% - - - -
OpenAI MRCR v2 8-needle 32K-64K 90.0% 90.5% - - - -
OpenAI MRCR v2 8-needle 64K-128K 83.1% 86.0% - - - -
OpenAI MRCR v2 8-needle 128K-256K 87.5% 79.3% - - 59.2% -
OpenAI MRCR v2 8-needle 256K-512K 81.5% 57.5% - - - -
OpenAI MRCR v2 8-needle 512K-1M 74.0% 36.6% - - 32.2% -

Abstract reasoning

Eval GPT-5.5 GPT‑5.4 GPT-5.5 Pro GPT‑5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
ARC-AGI-1 (Verified) 95.0% 93.7% - 94.5% 93.5% 98.0%
ARC-AGI-2 (Verified) 85.0% 73.3% - 83.3% 75.8% 77.1%

GPT 的 eval 在 reasoning effort 设为 xhigh 的情况下运行,并在 research environment 中进行,因此在某些情况下可能会与生产环境中的 ChatGPT 输出略有不同。

  • 原文链接: openai.com/index/introdu...
  • 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
点赞 0
收藏 0
分享
本文参与登链社区写作激励计划 ,好文好收益,欢迎正在阅读的你也加入。

0 条评论

请先 登录 后评论
openai
openai
江湖只有他的大名,没有他的介绍。