专业IT科技资讯平台,关注科技、手机、电脑、智能硬件、电脑知识!
当前位置:信息发布网 > 科技 > 互联网 >

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

导读:

OpenAI o3 还没上线,就被曝数学成绩是靠作弊得来?!

Benchmark 发布机构内部人员爆料称,

OpenAI o3 还没上线,就被曝数学成绩是靠作弊得来?!

Benchmark 发布机构内部人员爆料称,OpenAI 给了他们经费赞助

就连包括陶哲轩在内参与出题的 60 余名数学家,在消息曝光之前也都和普通公众一样蒙在鼓里

直到 o3 发布,这一消息才被公开。这意味着严格保密的题目,OpenAI 提前拿到了手中。

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

这套数据集名叫FrontierMath,包含了由陶哲轩等 60 多名权威数学家命制的高难度题目。

陶哲轩就表示,这些题目足够困扰 AI 几年的时间;1998 年菲尔斯奖得主 Gowers 也说,能解决其中的一个问题就已经超越现在的能力范围了。

当时也正是因为在这一测试基准上大幅领先,o3 的能力更进一步被得到认可。

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

Epoch.ai 这边,联合创始人 Tamay Besiroglu 也回应并承认了秘密赞助和 OpenAI 提前拿到题目的传闻,但否认题目被 OpenAI 拿来作弊

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

但有些网友并不买账,表示 OpenAI 如果不使用这些信息还要访问权限干什么,并推测有可能被用来训练。

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

专家被要求严格保密,但 OpenAI 却能拿到题

这家名叫 Epoch.ai 的机构,开发了一款名为 FrontierMath 的数学测试基准,论文第一版预印本于去年 11 月 7 日(协调世界时,北京时间为 8 日凌晨)发布。

包括第一版在内,FrontierMath 的论文在近两个月的时间里一共发布了五个版本,但直到最后 12 月 20 日的第五版才披露了 OpenAI 的资助

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

不过也只是在脚注中提了一句,感谢 OpenAI 对构建 Benchmark 的支持。

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

并且 12 月 20 日刚好是 OpenAI 发布 o3 的日子,并且 Besiroglu 也透露,之前没有公开正是由于OpenAI 的保密要求

在 o3 推出之前,我们一直被限制披露合作关系,事后看来,我们应该更加努力地谈判,以便能够尽快向基准贡献者保持透明。

如果不看 OpenAI 这场风波,FrontierMath 是一套含金量非常高的测试基准,由全球六十余位数学家联手命题,包括教授、IMO 命题人、菲尔兹奖获得者,其中就有大牛陶哲轩等人。

而且难度也非常高,包括数百个极具挑战性的数学问题,在 o3 之前的模型解决率不到 2%

哪怕 o3 真的作了弊,得分也才 20 多分。

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

像下面的这道题目,在 FrontierMath 当中算是难度最低的一档:

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

正常来说,FrontierMath 里的题目和答案是严格保密的,就连出题的数学家也被要求签订保密协议,甚至不能使用 Overleaf、Colab 或电子邮件传输有关题目的信息。

讽刺的是,这样 " 严格保密 " 的题目却被 OpenAI 拿到,而出题专家对 OpenAI 的情况毫不知情。

斯坦福博士、MIT 罗德奖学金得主 Carina Hong(洪乐潼)就表示,至少有六名专家能够证实这一点,并且大部分专家表示不确定如果知道(OpenAI 的独家访问权)是否还会选择贡献。

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

后来她表示,(和出题人)签保密协议确实是为了防止数据污染,对 OpenAI 的目的则不做猜测。

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

联创承认错误,但否认 OpenAI 作弊

内部爆料和外部质疑之下,Epoch.ai 联创 Besiroglu 也承认了和 OpenAI 存在秘密协议,并表示没有公开透明确实是 " 犯了一个错误 "。

但 Epoch.ai 否认了 OpenAI 作弊的说法,表示一方面OpenAI 拿到的数据并不是全部,另一方面OpenAI 也口头承诺拿到的数据不会用于模型训练

Besiroglu 回应全文如下(中文为机翻):

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

但对于 Besiroglu 提到的 " 口头承诺 ",有网友表示至少要有个书面的协议,但猜测 OpenAI 不会愿意提供,还有人补充说哪怕有书面材料也很难监督实施。

不过到现在,确实是所有的回应都来自 Epoch.ai 这边,OpenAI 还没给出说明。

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

另外 Epoch.ai 首席数学家Ellot Glazer也承诺,之后会对受到的资助进行说明。

对于 o3 的成绩,Ellot 表示 Epoch.ai 无法给出承诺,但他个人相信 OpenAI 的报告是准确的,因为在他看来 OpenAI" 没有撒谎的动机 "。

同时他说 Epoch.ai 正在开发一个保留数据集,能够确保 OpenAI 在测试之前无法事先接触。

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

不过有网友对 " 没有动机 " 的说法表示怀疑,Ellot 也进行了解释,表示 OpenAI 没有傻到搬起石头砸自己的脚。

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

话又说回来,o3 到现在依然是个黑盒,到底是名副其实还是炒作噱头,等到发布的那天就揭晓答案了。

参考链接:

[ 1 ] https://www.lesswrong.com/posts/cu2E8wgmbdZbqeWqb/meemi-s-shortform

[ 2 ] https://techcrunch.com/2025/01/19/ai-benchmarking-organization-criticized-for-waiting-to-disclose-funding-from-openai/

[ 3 ] https://www.reddit.com/r/singularity/comments/1i4n0r5/this_is_so_disappointing_epoch_ai_the_startup/

[ 4 ] https://x.com/CarinaLHong/status/1880820323597357273