欢迎来到漏泄春光网

漏泄春光网

OpenAIo3系列模型向AGI迈进,基准测试结果惊人

时间:2026-01-04 18:21:30 出处:娱乐阅读(143)

在为期12天的系型新闻发布会的最后一天,OpenAI正式发布了o3系列模型,列模包括o3和o3-mini。进基

o3 它是准测一个非常强大的模型,在编码、试结数学和 ARC-AGI 多个基准,果惊如基准测试,系型超过了 OpenAI 此前的列模 o1 模型(o1分25%,o3分87.5%)。进基

o3-mini 是准测 o3 在成本和延迟方面,比较更经济、试结高效、果惊性能导向的系型版本 o1-mini 要低得多,同时提供类似的列模功能。

因为和英国电信公司在一起 O2 版权/商标之间可能存在冲突,进基因此将其命名为O3。

图:OpenAI官方X

OpenAI 向正向安全研究人员开放 o3 和 o3-mini 预计早期访问 o3-mini 将于 1 月底左右发布,o3 则稍后。

测试概览

SWE-Bench 测试:71.7%——o1得分48.9%

Codeforces 评分:2727——相当于全球人类程序员编码竞赛,排名第一 175 位。

AIME:96.7%——这意味着数学测试中只有一个错误的问题

医生水平的科学问题(GPQA):87.7%——博士生一般得分70%

最难的前沿数学测试:25.2%——其他模型不超过2%,数学天才陶哲轩表示该测试“人工智能可能已经难住好几年了”

ARC-AGI:87.5%——o1得分25%

测试分数惊人,

这一次真的远超普通博士生

o3系列模型向AGI迈进,基准测试结果惊人

我们选择最具代表性的测试给大家简要介绍一下,从而说明o3测试分数的震撼程度。

(1)Codeforces测试

o3系列模型在世界顶级编程竞赛平台codeforces上展示了其出色的编程能力。o3在codeforces中的得分高达2727分,超过了大多数人类程序员。

现在,只有不到200名顶级人类程序员能够达到或超过这个分数。这一成就不仅证明了o3在编程任务上的强大实力,也显示了o3在解决复杂算法问题时接近甚至超越人类的潜力。

图:Codeforces排名及相应分数

(二)ARC-AGI测试

ARC-AGI(人工通用智能评估基准)由Keras之父Fran进行测试ois Chollet的发起旨在评估人工智能系统在面对未见的新任务时的适应性。ARC-AGI测试的核心是,其设计任务往往需要深入的逻辑推理和创新思维,这使得它成为评估人工智能系统通用智能能力的重要工具。

o3系列在这个测试中取得了显著的成绩。在高计算能力配置下,o3获得87.5%的分数,在低计算能力配置下获得75.7%的优异分数。这个分数远远超过o1系列,后者在同一个测试中只得到25%。

Fran?ois 对此,Chollet评论道,“这是一个惊人而重要的阶跃式提升,展示了GPT系列模型前所未有的新任务适应性。作为比较,ARC-AGI-1从2020年GPT-3的0%增加到2024年GPT-4o的5%,持续了四年。随着o3的出现,所有关于人工智能能力的现有认知都需要重新评估。”

图:Fran?ois Chollet评价

虽然ARC-AGI测试表现良好,但这并不意味着o3已经达到了AGI水平,因为它仍然会在一些非常简单的任务中失败,这与人类智能有根本的不同。

图:Fran?ois Chollet评价

(三)EpochAI Frontier Math测试

EpochAI Frontier Math测试被认为是当今最具挑战性的数学基准测试之一,涵盖了最新的前沿数学问题。著名数学家陶哲轩(Terence Tao)对此评价:“这个测试可能会让人工智能难住好几年。”

然而,o3在此测试中突破了以往的记录,解决了25.2%的问题,而其他模型的得分不超过2%。这一结果不仅证明了o3在数学推理方面的强大能力,而且也显示了其处理高度复杂和抽象问题的潜力。

Box首席执行官亚伦·列维(Aaron Levie)称赞X:“OpenAI刚刚宣布了他们的新推理模型o3,它在基准测试中的表现似乎非常出色,目前,人工智能的发展没有放缓的迹象。

图:Aaron Levie X

谷歌登基几天后,

OpenAI重返铁王座

几天前,谷歌凭借其新一代大模型Geminini 2.0和视频生成模型Veo 2.0的发布曾经在AI的牌桌上杀死了四面八方。然而,随着OpenAI推出O3系列模型,游戏再次戏剧性地逆转。

(一)谷歌掀开AI圈的牌桌,全力狙击OpenAI

在OpenAI为期12天的新闻发布会上,谷歌迅雷不及掩耳地发布了其重磅产品——Gemini 2.0 Flash。该版本不仅加倍了速度,而且在多模态输出方面取得了突破,支持原始图像生成和音频输出,进一步扩大了人工智能模型的应用边界。Gemini 2.0不仅是语言模型的升级版,也是具有主动思考和多任务处理能力的统一底层模型。

桑达尔,谷歌首席执行官·皮查伊在新闻发布会上说:“假如说Gemini 1.0是关于整理和理解信息的,所以Gemini 2.0是为了让这些信息真正有用。”

配合新推出的多模态实时API,Gemini 2.0能够处理实时音频和视频流输入,支持各种工具的组合,大大提高其在复杂任务中的适应性。

(2)你唱完我出现,OpenAI回到铁王座

谷歌Deepmind的研究人员在12月13日吐槽,OpenAI这次的发布并没有截胡到他们,OpenAI的研究人员在下面回复“好戏还在后面”。

自OpenAI发布GPT4以来,它一直处于领先地位,但Google、Anthropic、Meta和其他竞争对手也咬得很紧。今天,随着OpenAI发布其o3系列模型,它宣布将在2024年人工智能军备竞赛中再次骑回铁王座。

就像OpenAI研究高级副总裁马克一样·陈(Mark Chen)所言“这确实标志着我们在实用性的前沿攀登,”。“该模型在编程方面非常出色,”奥特曼还补充说。

OpenAI发布o1三个月前,今天OpenAI发布o3,证明了人工智能进步的趋势是不可阻挡的。

图片:OpenAI研究人员X

从ARC-AGI测试的分数来看,我们可以直观地发现,人工智能的发展趋势并没有放缓,这可能是对今年人工智能泡沫理论最有力的回应。

GPT-2 (2019): 0%

GPT-3 (2020): 0%

GPT-4 (2023): 2%

GPT-4o (2024): 5%

o1-preview (2024): 21%

o1 high (2024): 32%

o1 Pro (2024): ~50%

o3 tuned low (2024): 76%

o3 tuned high (2024): 87%

John Hallman(OpenAI研究员曾在谷歌中 普林斯顿大学数学系Brain实习学生 IMO 银牌得主)说:

“当 我们的研究人员谈论Sam AGI 即将到来的时候,我们不卖你神奇的药水,2000 美元订阅服务,或诱使您投资于我们的下一轮融资。但AGI时代真的即将到来。”

然而,这也意味着人工智能的安全问题将不再是一个假设性的问题。我们不知道一个高智商的人工智能会撒谎,可以调动大量资源。如果没有完整的安全审计机制,会造成什么后果...一年前OpenAI的首席科学家Ilya sutskeverSam Altman意见不合,离开了OpenAI。当时网友猜测Ilya看到了AGI的可能性,但认为其安全风险极高,不适合推出。

前几天Anthropic的最新论文显示,人工智能模型可以“假装对齐”——马斯克在训练过程中假装遵循训练规则,但在部署过程中恢复了原来的行为,并对此进行了相应的评价。

此前,腾讯科技发表了一篇关于撒谎的o1的文章:

在过去的几天里,O3已经到来,也许与人工智能的智能相比,安全问题现在应该成为最高优先事项。

目前,OpenAI已向安全研究人员和合作伙伴开放测试申请,旨在通过更多的实际应用测试进一步提高模型的安全性和可靠性。

图:OpenAI官网

图:Sam Altman邀请安全研究员参加测试

高昂的价格

除了惊叹o3惊人的表现,很多网友也担心o3可能导致的高任务成本。

人工智能的发展是否在2024年放缓?

2024年,人工智能领域经历了前所未有的激烈军备竞赛。今年不仅是技术的飞跃,也是战略与创新的竞争。每一款新产品的发布都影响着整个行业的神经,OpenAI在年底通过o3系列的出色表现重新夺回了铁王座,再次推动了AGI的道路。

回顾两年前,就像昨天一样,我们正在见证历史,经历新一轮的技术革命。

本文来源:腾讯科技

分享到:

温馨提示:以上内容和图片整理于网络,仅供参考,希望对您有帮助!如有侵权行为请联系删除!

友情链接: