当前位置：

OpenAIo3系列模型向AGI迈进,基准测试结果惊人

时间:2026-01-04 18:21:30 出处:娱乐阅读（143）

在为期12天的系型新闻发布会的最后一天，OpenAI正式发布了o3系列模型，列模包括o3和o3-mini。进基

o3 它是准测一个非常强大的模型，在编码、试结数学和 ARC-AGI 多个基准，果惊如基准测试，系型超过了 OpenAI 此前的列模 o1 模型(o1分25%，o3分87.5%)。进基

o3-mini 是准测 o3 在成本和延迟方面，比较更经济、试结高效、果惊性能导向的系型版本 o1-mini 要低得多，同时提供类似的列模功能。

因为和英国电信公司在一起 O2 版权/商标之间可能存在冲突，进基因此将其命名为O3。

图:OpenAI官方X

OpenAI 向正向安全研究人员开放 o3 和 o3-mini 预计早期访问 o3-mini 将于 1 月底左右发布，o3 则稍后。

测试概览

SWE-Bench 测试：71.7%——o1得分48.9%

Codeforces 评分：2727——相当于全球人类程序员编码竞赛，排名第一 175 位。

AIME：96.7%——这意味着数学测试中只有一个错误的问题

医生水平的科学问题（GPQA）：87.7%——博士生一般得分70%

最难的前沿数学测试：25.2%——其他模型不超过2%，数学天才陶哲轩表示该测试“人工智能可能已经难住好几年了”

ARC-AGI：87.5%——o1得分25%

测试分数惊人，

这一次真的远超普通博士生

o3系列模型向AGI迈进，基准测试结果惊人

我们选择最具代表性的测试给大家简要介绍一下，从而说明o3测试分数的震撼程度。

(1)Codeforces测试

o3系列模型在世界顶级编程竞赛平台codeforces上展示了其出色的编程能力。o3在codeforces中的得分高达2727分，超过了大多数人类程序员。

现在，只有不到200名顶级人类程序员能够达到或超过这个分数。这一成就不仅证明了o3在编程任务上的强大实力，也显示了o3在解决复杂算法问题时接近甚至超越人类的潜力。

图:Codeforces排名及相应分数

（二）ARC-AGI测试

ARC-AGI(人工通用智能评估基准)由Keras之父Fran进行测试ois Chollet的发起旨在评估人工智能系统在面对未见的新任务时的适应性。ARC-AGI测试的核心是，其设计任务往往需要深入的逻辑推理和创新思维，这使得它成为评估人工智能系统通用智能能力的重要工具。

o3系列在这个测试中取得了显著的成绩。在高计算能力配置下，o3获得87.5%的分数，在低计算能力配置下获得75.7%的优异分数。这个分数远远超过o1系列，后者在同一个测试中只得到25%。

Fran?ois 对此，Chollet评论道，“这是一个惊人而重要的阶跃式提升，展示了GPT系列模型前所未有的新任务适应性。作为比较，ARC-AGI-1从2020年GPT-3的0%增加到2024年GPT-4o的5%，持续了四年。随着o3的出现，所有关于人工智能能力的现有认知都需要重新评估。”

图：Fran?ois Chollet评价

虽然ARC-AGI测试表现良好，但这并不意味着o3已经达到了AGI水平，因为它仍然会在一些非常简单的任务中失败，这与人类智能有根本的不同。

图：Fran?ois Chollet评价

（三）EpochAI Frontier Math测试

EpochAI Frontier Math测试被认为是当今最具挑战性的数学基准测试之一，涵盖了最新的前沿数学问题。著名数学家陶哲轩（Terence Tao）对此评价：“这个测试可能会让人工智能难住好几年。”

然而，o3在此测试中突破了以往的记录，解决了25.2%的问题，而其他模型的得分不超过2%。这一结果不仅证明了o3在数学推理方面的强大能力，而且也显示了其处理高度复杂和抽象问题的潜力。

Box首席执行官亚伦·列维（Aaron Levie）称赞X：“OpenAI刚刚宣布了他们的新推理模型o3，它在基准测试中的表现似乎非常出色，目前，人工智能的发展没有放缓的迹象。”

图：Aaron Levie X

谷歌登基几天后，

OpenAI重返铁王座

几天前，谷歌凭借其新一代大模型Geminini 2.0和视频生成模型Veo 2.0的发布曾经在AI的牌桌上杀死了四面八方。然而，随着OpenAI推出O3系列模型，游戏再次戏剧性地逆转。

(一)谷歌掀开AI圈的牌桌，全力狙击OpenAI

在OpenAI为期12天的新闻发布会上，谷歌迅雷不及掩耳地发布了其重磅产品——Gemini 2.0 Flash。该版本不仅加倍了速度，而且在多模态输出方面取得了突破，支持原始图像生成和音频输出，进一步扩大了人工智能模型的应用边界。Gemini 2.0不仅是语言模型的升级版，也是具有主动思考和多任务处理能力的统一底层模型。

桑达尔，谷歌首席执行官·皮查伊在新闻发布会上说：“假如说Gemini 1.0是关于整理和理解信息的，所以Gemini 2.0是为了让这些信息真正有用。”

配合新推出的多模态实时API，Gemini 2.0能够处理实时音频和视频流输入，支持各种工具的组合，大大提高其在复杂任务中的适应性。

(2)你唱完我出现，OpenAI回到铁王座

谷歌Deepmind的研究人员在12月13日吐槽，OpenAI这次的发布并没有截胡到他们，OpenAI的研究人员在下面回复“好戏还在后面”。

自OpenAI发布GPT4以来，它一直处于领先地位，但Google、Anthropic、Meta和其他竞争对手也咬得很紧。今天，随着OpenAI发布其o3系列模型，它宣布将在2024年人工智能军备竞赛中再次骑回铁王座。

就像OpenAI研究高级副总裁马克一样·陈（Mark Chen）所言“这确实标志着我们在实用性的前沿攀登，”。“该模型在编程方面非常出色，”奥特曼还补充说。

OpenAI发布o1三个月前，今天OpenAI发布o3，证明了人工智能进步的趋势是不可阻挡的。

图片：OpenAI研究人员X

从ARC-AGI测试的分数来看，我们可以直观地发现，人工智能的发展趋势并没有放缓，这可能是对今年人工智能泡沫理论最有力的回应。

GPT-2 (2019): 0%

GPT-3 (2020): 0%

GPT-4 (2023): 2%

GPT-4o (2024): 5%

o1-preview (2024): 21%

o1 high (2024): 32%

o1 Pro (2024): ~50%

o3 tuned low (2024): 76%

o3 tuned high (2024): 87%

John Hallman(OpenAI研究员曾在谷歌中普林斯顿大学数学系Brain实习学生 IMO 银牌得主)说:

“当我们的研究人员谈论Sam AGI 即将到来的时候，我们不卖你神奇的药水，2000 美元订阅服务，或诱使您投资于我们的下一轮融资。但AGI时代真的即将到来。”

然而，这也意味着人工智能的安全问题将不再是一个假设性的问题。我们不知道一个高智商的人工智能会撒谎，可以调动大量资源。如果没有完整的安全审计机制，会造成什么后果...一年前OpenAI的首席科学家Ilya sutskeverSam Altman意见不合，离开了OpenAI。当时网友猜测Ilya看到了AGI的可能性，但认为其安全风险极高，不适合推出。

前几天Anthropic的最新论文显示，人工智能模型可以“假装对齐”——马斯克在训练过程中假装遵循训练规则，但在部署过程中恢复了原来的行为，并对此进行了相应的评价。