OpenAI o3 还没上线,就被曝数学成绩是靠作弊得来?!
Benchmark 发布机构内部人员爆料称,OpenAI 给了他们经费赞助。
就连包括陶哲轩在内参与出题的 60 余名数学家,在消息曝光之前也都和普通公众一样蒙在鼓里。
直到 o3 发布,这一消息才被公开。这意味着严格保密的题目,OpenAI 提前拿到了手中。
这套数据集名叫FrontierMath,包含了由陶哲轩等 60 多名权威数学家命制的高难度题目。
陶哲轩就表示,这些题目足够困扰 AI 几年的时间;1998 年菲尔斯奖得主 Gowers 也说,能解决其中的一个问题就已经超越现在的能力范围了。
当时也正是因为在这一测试基准上大幅领先,o3 的能力更进一步被得到认可。
Epoch.ai 这边,联合创始人 Tamay Besiroglu 也回应并承认了秘密赞助和 OpenAI 提前拿到题目的传闻,但否认题目被 OpenAI 拿来作弊。
但有些网友并不买账,表示 OpenAI 如果不使用这些信息还要访问权限干什么,并推测有可能被用来训练。
专家被要求严格保密,但 OpenAI 却能拿到题
这家名叫 Epoch.ai 的机构,开发了一款名为 FrontierMath 的数学测试基准,论文第一版预印本于去年 11 月 7 日(协调世界时,北京时间为 8 日凌晨)发布。
包括第一版在内,FrontierMath 的论文在近两个月的时间里一共发布了五个版本,但直到最后 12 月 20 日的第五版才披露了 OpenAI 的资助。
不过也只是在脚注中提了一句,感谢 OpenAI 对构建 Benchmark 的支持。
并且 12 月 20 日刚好是 OpenAI 发布 o3 的日子,并且 Besiroglu 也透露,之前没有公开正是由于OpenAI 的保密要求:
在 o3 推出之前,我们一直被限制披露合作关系,事后看来,我们应该更加努力地谈判,以便能够尽快向基准贡献者保持透明。
如果不看 OpenAI 这场风波,FrontierMath 是一套含金量非常高的测试基准,由全球六十余位数学家联手命题,包括教授、IMO 命题人、菲尔兹奖获得者,其中就有大牛陶哲轩等人。
而且难度也非常高,包括数百个极具挑战性的数学问题,在 o3 之前的模型解决率不到 2%。
哪怕 o3 真的作了弊,得分也才 20 多分。
像下面的这道题目,在 FrontierMath 当中算是难度最低的一档:
正常来说,FrontierMath 里的题目和答案是严格保密的,就连出题的数学家也被要求签订保密协议,甚至不能使用 Overleaf、Colab 或电子邮件传输有关题目的信息。
讽刺的是,这样 " 严格保密 " 的题目却被 OpenAI 拿到,而出题专家对 OpenAI 的情况毫不知情。
斯坦福博士、MIT 罗德奖学金得主 Carina Hong(洪乐潼)就表示,至少有六名专家能够证实这一点,并且大部分专家表示不确定如果知道(OpenAI 的独家访问权)是否还会选择贡献。
后来她表示,(和出题人)签保密协议确实是为了防止数据污染,对 OpenAI 的目的则不做猜测。
联创承认错误,但否认 OpenAI 作弊
内部爆料和外部质疑之下,Epoch.ai 联创 Besiroglu 也承认了和 OpenAI 存在秘密协议,并表示没有公开透明确实是 " 犯了一个错误 "。
但 Epoch.ai 否认了 OpenAI 作弊的说法,表示一方面OpenAI 拿到的数据并不是全部,另一方面OpenAI 也口头承诺拿到的数据不会用于模型训练。
Besiroglu 回应全文如下(中文为机翻):
但对于 Besiroglu 提到的 " 口头承诺 ",有网友表示至少要有个书面的协议,但猜测 OpenAI 不会愿意提供,还有人补充说哪怕有书面材料也很难监督实施。
不过到现在,确实是所有的回应都来自 Epoch.ai 这边,OpenAI 还没给出说明。
另外 Epoch.ai 首席数学家Ellot Glazer也承诺,之后会对受到的资助进行说明。
对于 o3 的成绩,Ellot 表示 Epoch.ai 无法给出承诺,但他个人相信 OpenAI 的报告是准确的,因为在他看来 OpenAI" 没有撒谎的动机 "。
同时他说 Epoch.ai 正在开发一个保留数据集,能够确保 OpenAI 在测试之前无法事先接触。
不过有网友对 " 没有动机 " 的说法表示怀疑,Ellot 也进行了解释,表示 OpenAI 没有傻到搬起石头砸自己的脚。
话又说回来,o3 到现在依然是个黑盒,到底是名副其实还是炒作噱头,等到发布的那天就揭晓答案了。
参考链接:
[ 1 ] https://www.lesswrong.com/posts/cu2E8wgmbdZbqeWqb/meemi-s-shortform
[ 2 ] https://techcrunch.com/2025/01/19/ai-benchmarking-organization-criticized-for-waiting-to-disclose-funding-from-openai/
[ 3 ] https://www.reddit.com/r/singularity/comments/1i4n0r5/this_is_so_disappointing_epoch_ai_the_startup/
[ 4 ] https://x.com/CarinaLHong/status/1880820323597357273