当前位置：网站首页软件资讯正文

IMO题库“过时”了！OpenAI内部模型挑战最新First Proof，做了7天错了一半

来源：互联网发布时间：2026-02-28

在谷歌发布Gemini 3 Deep Think爆火后，OpenAI也开始放出新的能力信号。

刚刚，OpenAI表示：他们用尚未发布的内部模型，在一周内尝试解答10道来自数学家科研现场的真实问题，其中有5道被认为基本正确。

值得一提的是，这批题目与此前GPT、Gemini等模型在IMO类测试中取得金牌成绩时面对的题目完全不同。

它们不来自标准题库，也不是竞赛题，而是直接取自数学家真实研究过程中的自然问题。

这在很大程度上切断了模型“背答案”或通过训练数据污染获得优势的可能性，从而意味着模型自主推理能力再次进化。

正如一位网友所说：

此外，据称OpenAI研究员，o1核心贡献者Noam Brown表示：

解决一半的真实数学问题

相信眼尖的你已经发现了：为什么图片里写的是6道，但正文却说是5道？

在早期评估中，确实一度认为模型做对了6道。

但随后在社区讨论与复核反馈中，第2题的解法被指出可能存在问题。

根据OpenAI的Jakub Pachocki的说法，第2题很可能是错的，因此更保守的估计应该在5道左右。

至于具体做对了哪些题，咱们先看这次测试本身是如何进行的。

OpenAI方面表示，这只是一次为期一周的侧向冲刺：

主要通过查询他们当前正在训练的模型来完成，因此方法论上仍有不少局限。

在评估过程中，他们没有向模型提供证明思路或数学提示。

对于部分解答，只是在专家反馈后要求模型进一步展开证明细节。

同时，团队还人工协调该模型与ChatGPT之间的往返交流，用于验证、格式整理与风格调整。

对于个别问题，最终呈现的版本是基于人工判断，从多次尝试中挑选出的最佳结果。

在下面的10道题中，OpenAI的内部模型在第4、5、6、9、10题上给出了较为可靠的答案。

接下来，我们具体来看。

4.有限加性卷积与Φₙ的调和平均不等式

问题：给定两个n次首一实根多项式p和q，定义一种特殊的卷积运算。

需要证明：反映根部拥挤程度的指标（根间距离倒数平方和）的倒数，在卷积后满足调和平均不等式。本质是在探究该运算是否会让根分布更加均匀。

模型给出的思路是：

特征转化：利用残留公式将指标转化为一组正数的倒数和。
矩阵分解：证明卷积后的权重向量可表示为原向量的加权组合，权重矩阵具双随机结构。
不等式放缩：通过Jensen不等式与凸性分析推出稳定性指标提升
5. O-适配切片滤过与切片连通性的几何不动点判据
问题：G-等变稳定范畴中，由N∞算子诱导的切片过滤结构。
模型给出的思路是：
结构定义：利用由群表示生成的切片单元构造局部化子范畴，从而建立对应的切片过滤层级框架。
判据建立：证明一个连通G-谱属于某一层级，当且仅当对所有子群取几何定点后，其连通性满足相应阈值条件，从整体结构转化为局部检测问题。
证明路径：通过各向同性分离方法进行归纳推导，并结合双陪集公式处理诱导谱的几何定点，将问题最终化简为几何定点检测的等价判定。
6.大规模 ε-轻顶点子集
第六题研究图论中ε-轻子集（ε-light subset）的存在性。
若子集诱导拉普拉斯算子的能量始终不超过整图ε倍，则称其为ε-轻。
需证明：是否存在常数c，使任意图都能找到规模至少cε|V|的此类子集。
模型给出的思路是：
线性代数转化：将问题重写为矩阵不等式约束：在拉普拉斯算子的值域中寻找顶点集合，使其边贡献矩阵之和受上界控制。
部分着色构造：使用约16/ϵ种颜色，对约四分之一顶点进行贪心着色，为后续筛选结构提供候选划分。
屏障函数控制：引入源自谱稀疏化理论的屏障方法，通过控制潜在函数保证每次选择顶点与颜色时矩阵增长保持可控，从而维持不等式约束。
子集提取：着色结束后利用鸽巢原理选取最大颜色类作为S，并证明该集合满足 ε-轻性质，且规模下界为ε|V| / 256，从而得到存在性结论，给出常数c=1/256。
9.缩放四线性行列式张量之间的代数关系
问题：给定若干矩阵构造四阶张量，目标是用多项式映射判定系数是否可分解为四向量外积。
模型给出的思路是：
张量封装：将所有输入张量重新排列并合并为一个大张量，使问题转化为单个高维对象的结构判定。
构造映射：定义F为该张量在四个维度展开（flattening）后所得矩阵的所有5×5子式。这些子式本身即为次数为 5 的多项式函数。
秩约束证明：证明若系数具有分解结构，则对应展开矩阵秩不超过4，因此所有5×5子式必然为零，从而满足映射条件。
必要性验证：在Zariski泛性假设下，证明子式全部消失反过来也蕴含矩阵秩受限，从而恢复单模态分解结构，最终得到整体分解形式成立。
10.含缺失数据的核化 CP–ALS 子问题：基于 Kronecker 预条件的无矩阵 PCG 方法
问题：CP分解下，线性系统规模巨大。问题在于如何避免显式构造矩阵。
模型给出的思路是：
矩阵自由算子：利用观测索引集合Ω与Kronecker结构，将矩阵乘向量操作改写为仅针对已观测条目的收缩计算。通过直接作用于对应因子行与选择矩阵，实现线性算子的应用，避免构造完整系数矩阵。
Kronecker预条件子：针对采样不均匀带来的收敛困难，构造结构接近原算子的预条件子。该结构能够压缩谱分布，显著提升迭代收敛速度。
快速求逆应用：对核矩阵与Gram矩阵做特征分解，并利用Kronecker可分结构，将预条件子的逆作用化为低成本的基变换与对角缩放操作。
First Proof测试是什么？
这上面的5道题，均来自1st Proof项目。
对应问题的解答文件已于2月13日发布，而模型测试是在正式发布前一周完成的。
（注：解答文件包括作者解答、原始加密答案、项目团队生成的AI解答）
需要强调的是，这些问题本身仍处在持续讨论与研究阶段，因此模型给出的结果并不存在所谓“标准答案”。
是否正确、价值几何，都需要领域专家与社区进一步评估。
也正因此，社区验证不同解题路径成为过程的一部分——
像第2题这样，最初看似成立、后来被指出问题的情况，也在意料之内。
那么，1st Proof到底是什么？
简单来说，这是一个面向AI能力评估的实验性项目，其核心目标很直接：
用真实科研过程中自然产生的数学问题，测试AI是否能够自主完成研究级证明。
项目首轮发布了一组10道研究级数学问题，用来评估AI系统在接近真实科研环境下的能力表现。
这些问题涵盖代数组合、谱图论、代数拓扑、随机分析、辛几何、表示论、李群格点、张量分析、数值线性代数等多个数学方向。
它们都来自作者自身研究过程，并且理论上可在约5页证明内解决（答案最初未公开）。
据悉，下一轮问题设计细节预计在今年3月14日公布。
问题发布后，不少研究者也参与到模型答案的验证之中。
比如，CMU助理教授Yang Liu就在社交媒体上详细讨论了第六题。
他表示OpenAI的解答基本正确，并直言当前模型在数学能力上的进步令人印象深刻。
更具体地说，他指出：
当前模型已经相当擅长证明那类自包含的问题陈述——尤其是当解法建立在已有文献思想之上，或证明本身较为简短时。
在他看来，这一框架很好地捕捉了两个方向的进展：
一端是IMO/竞赛数学，另一端则是更贴近研究环境的数学推理能力。
与此同时，也有不少讨论认为：
事实上，像1st Proof这样的测试集本身就体现了评估思路的变化。
正如一位网友所说，这次值得关注的，并不是ChatGPT或Gemini的表现，而是测试设计本身：
因为关键变化是：当模型面对无法背诵答案的问题，仍能产出被专家认真评估的证明路径时，它展现出的行为更接近自主推理，而非知识回放。
这释放了两个信号：
一方面OpenAI 内部模型的数学推理能力，正在逼近研究级问题空间。
另一方面，评测范式正在改变——
不再只是用题库刷新分数，而是开始把模型放进科研现场，用真实问题检验其思考能力。
参考链接：
[1]https://x.com/polynoamial/status/2022527227049742779
[2]https://1stproof.org/
[3]https://cdn.openai.com/pdf/a430f16e-08c6-49c7-9ed0-ce5368b71d3c/1stproof_oai.pdf
文章来自于微信公众号 "量子位"，作者 "量子位"

相关信息

逆战未来枪械强度排行详解逆战未来枪械强度排行指南在逆战未来中，有着丰富的枪械装备能够选择和使用，适合的武器装备能够对战局产生极大的影响。因为每种枪械都有不同的性能和强度，所以今天小编将为大家带来逆战未来枪械强度排行详解，供有需要的玩家进行参考。逆战
游戏新闻 02-28

微软立大功！Xbox商店曝光《红色沙漠》解锁时间近日，海外玩家在社交平台上发现，Xbox商店已经悄悄更新了《红色沙漠》的发售信息。根据页面显示，游戏将在3月19日多国时区同步解锁，对应到北京时间为3月20日早上6点。目前暂时不知xbox主机能否通过
游戏新闻 02-28

怪猎史莱姆包裹玩家下半身！卡普空无意还是刻意？近日，外网一位博主在自己的社交媒体上发布了一段视频，演示了怪物猎人荒野中怪物史莱姆的一个大胆行为。视频详情：可以看到，视频中的史莱姆在击倒了玩家所操作的角色之后，继续做出了将玩家所操控角色包裹缠绕的表
游戏新闻 02-28

推荐游戏新闻

杭州黑马登顶全球第一，引爆千亿医疗市场！14亿人把「三甲医生」塞进微信群 02-28

全球最大游戏博主「偷师」DeepSeek，爆改国产大模型干翻 ChatGPT 02-28

刚刚，奥特曼光速滑跪背刺Anthropic，OpenAI高调签下军方大单 02-28

AI+医疗又一笔4200万美金大额融资，让AI成为你的家庭医生 02-28

「我是Agent#847291」Moltbook迎来人类自首 02-28

汉堡王给员工戴上 AI 耳机：你的每一句「谢谢」，都在被 AI 打分 02-28

最新AI军事模拟：Claude、Gemini、GPT对决，95%对局发射核弹 02-28

独家｜VUI Labs宇生月伴完成数千万元天使+轮融资，同创伟业领投，打造行业领先的情感语音大模型和多模态Agent 02-28

游戏下载 +

近期热点 +

7zip怎么设置中文?7zip设置中文的方法

游戏加加怎么调整显示位置?游戏加加调整显示位置的方法

游戏加加怎么看游戏性能报告?游戏加加看游戏性能报告的方法

图吧工具箱如何检测硬盘?图吧工具箱检测硬盘的操作步骤

央视影音怎么下载到电视上?央视影音下载到电视上的方法

游戏新闻周排行 +

02-28

Nano Banana 2 的 5 个神级玩法，还是 AI 生图的神，建议收藏（附提示词）「2 0 比不上 1 0 Pro，真正的升级还得看 Nano Banana 2 Pro。」这是不少网友在昨天 Nano Banana 2 推出后，体验完的明显感受。一方面部分场景下的生成速度有所提升，

02-28

最长连续工作40天！硅谷Agent又进化了：给个指令，剩下它全搞定可自主规划连续执行40天的全自动智能体来了！果然吃龙虾肉，有时候还得看老外（doge）Factory最新上线的Missions，直接超越OpenClaw，把一盘剥好的肉端上桌——不整虚的！只需一个任务

02-28

特朗普封杀Anthropic引爆硅谷，死对头奥特曼都来声援了是什么样的大事，能让 OpenAI 跟 Anthropic 和解，站到了同一战线上？本周五，特朗普在社交媒体上发帖，指责人工智能公司 Anthropic 试图「强迫」五角大楼接受其条款，并指示所有联邦

02-28

杭州黑马登顶全球第一，引爆千亿医疗市场！14亿人把「三甲医生」塞进微信群 2026年开春，资本市场正迎来一场由AI驱动的医疗健康产业变革，AI在医疗领域正式迈入商业爆发期！截至2月25日收盘，AI医疗板块延续了年初以来的强劲态势。Choice数据显示，中证医药及医疗器械创新

02-28

全球最大游戏博主「偷师」DeepSeek，爆改国产大模型干翻 ChatGPT 全球最大游戏博主 PewDiePie，又整活了。他靠着「偷师」DeepSeek、清华大学发布的技术文档，用一堆魔改显卡成功微调出一个自己的 AI 模型，而这个模型在编程基准测试中的表现，竟然超越了 G

IMO题库“过时”了！OpenAI内部模型挑战最新First Proof，做了7天错了一半

解决一半的真实数学问题

4.有限加性卷积与Φₙ的调和平均不等式

5. O-适配切片滤过与切片连通性的几何不动点判据

6.大规模 ε-轻顶点子集

9.缩放四线性行列式张量之间的代数关系

10.含缺失数据的核化 CP–ALS 子问题：基于 Kronecker 预条件的无矩阵 PCG 方法

First Proof测试是什么？