今日精读:通用推理模型推翻 80 年几何猜想,AI 科学发现迈出关键一步
[AINews] OpenAI GPT-next disproves 80 year old Erdős planar unit distance problem for under $1000
这期 AINews 几乎把焦点放在 OpenAI 内部通用推理模型推翻 Erdős 1946 年平面单位距离问题相关长期猜想上,并整理了 Twitter/X 上数学家、OpenAI 研究员和 AI 社区的反应。邮件强调,这不是 AlphaProof/Lean 一类专门数学系统,而是通用 LLM 的 extended reasoning 结果;据社区推测,运行成本低于 1000 美元、耗时少于 32 小时。它还提醒读者,这次是“disproof”而不是完整证明某个更强结论,但依然可能代表 AI 从竞赛题能力走向开放科学问题贡献的早期信号。
今天最值得精读的是 OpenAI 内部通用推理模型在 Erdős 平面单位距离问题上的结果。这个问题源于 1946 年,围绕平面上点之间可以形成多少条同长度连线展开,长期以来网格式构造影响了相关直觉。AINews 的判断重点不只是“AI 又做出一道数学题”,而是这个结果被描述为一个通用目的推理模型自主找到的新构造,并推翻了一个持续约 80 年的信念。邮件特别强调,它不是为数学证明定制的 AlphaProof/Lean 式系统,也不是依赖专门形式化脚手架的求解器,这让它对其他科学领域的可迁移性更值得关注。 邮件还给出几个重要背景:输出据称长达 125 页,其中所谓“page 39 moment”引发讨论;社区推测模型运行少于 32 小时、成本低于 1000 美元;OpenAI 表示模型尚未被推到极限,且未来会面向公众使用。更关键的是,Timothy Gowers、Noga Alon、Thomas Bloom 等外部数学家参与验证或公开评论,使这件事区别于 2025 年 OpenAI 曾被批评的“发现”争议。那次所谓解决 Erdős 问题后来更像是文献检索,而这次被 AINews 归为更接近真正开放问题推进的案例。 对 builder 来说,这件事的隐含判断是:长时推理、搜索、验证、跨领域迁移,可能会成为下一代模型的核心产品能力,而不只是聊天体验的增强。数学是一个相对容易验证的前沿场景,如果通用模型能在这里做出原创贡献,那么在生物、工程、材料、代码架构和复杂产品决策中,类似“提出候选方案、生成推导、接受外部验证”的工作流可能会更快产品化。需要继续关注的是:这个能力是否稳定、是否可复现、是否依赖大量隐藏 scaffold,以及公开模型版本能否让独立研究者和开发者真正调用到类似长程推理能力。
这是今天最重要的信号,因为它把模型能力讨论从“回答问题/完成任务”推向“产生可验证的新知识”。如果邮件中的描述成立,通用推理模型开始触达开放科学问题,会改变科研工具、agent 设计和模型评估的优先级。
AI builder 应关注长程推理产品形态:异步任务、可审计推导、专家验证、低成本多轮搜索和引用链管理会变得更重要。行业层面,这会强化“科学发现 agent”和“研究 copilot”的投资叙事。
- 01OpenAI 内部通用推理模型据称推翻了 Erdős 1946 年单位距离问题相关的长期信念。
- 02邮件强调它不是专门数学系统,而是通用目的 LLM 的 extended reasoning 结果。
- 03社区推测运行少于 32 小时、成本低于 1000 美元,但这是邮件转述的推测。
- 04结果获得多位数学家和研究者关注,并被认为不同于此前“AI 做竞赛题”的阶段。
- 05这次是 disproof,AINews 提醒它和完整证明更强结论仍有差别。
- 06OpenAI 表示该内部模型未来会发布,值得关注公开版本是否保留类似能力。
- — 阅读时要区分:模型到底自主完成了哪些步骤,哪些部分来自人类验证或后处理。
- — 关注这个案例是否可复现,而不是只看单次里程碑叙事。
- — 观察通用推理模型与专门数学系统之间的边界是否正在变化。
- — 思考 builder 如何把“长程推理 + 外部验证”做成可用产品,而不是一次性演示。
Agent 需要的不是一次性沙箱,而是可组合的电脑
Latent.Space 这期采访 Daytona CEO Ivan Burazin,核心观点是 agent 时代正在把“开发环境上云”的老命题变成刚需:agent 不关心本地电脑和个人 IDE,它们需要可通过 API 访问、可保持状态、可快速启动、可隔离、可扩缩容的“电脑”。Daytona 从面向人类开发者的云开发环境转向 AI sandbox,并称其系统可约 60ms 启动单个 sandbox、75 秒启动 5 万个 sandbox,最大客户每天运行约 85 万个 sandbox,RL/eval 工作负载也从 0 增至约一半使用量。对 builder 的意义在于,agent 产品的竞争可能很快转到底层执行环境:状态快照、资源调度、Windows/macOS 支持、CLI 能力、CI/CD 兼容性都会影响 agent 能否真正干活。
它把 agent infra 的问题说得很具体:不是简单代码执行,而是给 agent 一台可控、可恢复、可扩展的电脑。
- — Daytona 从人类云开发环境转向 AI sandbox。
- — 邮件称 RL/eval 工作负载在数月内增长到约 50% 使用量。
- — Ivan 认为 CLI 可能比 MCP 给 agent 更强的操作能力。
Google 集中推出 Omni、Gemini 3.5 Flash 与 Spark agent
AI Valley 这期聚焦 Google I/O 2026 后的一组 AI 发布:Gemini Omni 被描述为面向交互式视频生成与编辑的多模态世界模型,支持文本、音频、图像、视频输入,并强调物理、上下文理解和对话式视频编辑;Gemini 3.5 Flash 面向所有用户推出,被定位为 Gemini app、Search AI Mode、Antigravity 和 Gemini Spark 的默认能力;Gemini Spark 则是 24/7 云端 agent,用于跨应用自动化复杂工作流。邮件还提到 OpenAI 数学突破以及工具、资源趋势。对 builder 来说,Google 的路线是把模型、搜索、办公、多模态媒体和 agent 执行连成产品生态。
Google 正在把模型能力直接下沉到消费端、企业端和 agent 工作流,而不是只发布单一 API 模型。
- — Gemini Omni 主打交互式 AI 视频生成与编辑。
- — Gemini 3.5 Flash 被放到多个 Google 产品中作为核心模型。
- — Gemini Spark 被描述为 24/7 云端自动化 agent。
前沿 AI 的三条主线:算力交易、IPO 与 agent runtime
TLDR AI 这期覆盖资本、研究和工程三条线:头条称 Anthropic 与 SpaceX 达成近 450 亿美元、为期三年的计算资源协议,每月支付 12.5 亿美元,并扩展到第二个 SpaceX 数据中心;OpenAI 被报道最快 9 月 IPO;Stability AI 发布 Stable Audio 3.0;深度文章包括 OpenAI 模型推翻离散几何猜想、从第一性原理构建 agent 训练循环、以及大模型预训练中“不过滤数据”可能更优的 scaling 研究。工程部分重点是 Google Agent Executor,一个面向长时 agent workflow 的开源分布式运行时标准,强调 durable execution、安全隔离、连接恢复、session consistency 和 trajectory branching。
这期把“模型能力突破”和“算力/运行时基础设施”放在同一天呈现,能看出 AI 竞争正在同时拼资金、工程系统和研究成果。
- — Anthropic 与 SpaceX 的大型算力交易显示前沿实验室对专用算力的依赖加深。
- — Google Agent Executor 试图标准化长时 agent workflow 的可靠执行。
- — OpenAI 数学突破再次出现在多家 newsletter 的核心位置。
Meta 被曝用员工操作训练 AI,同时推进人员重组与裁员
The Neuron 这期头条围绕一段据称泄露的 Meta 内部会议录音:邮件称 Zuckerberg 解释 Meta 正在监控员工在 Gmail、GChat、内部工具 Metamate 和 VSCode 等环境中的活动,用来训练 AI,因为模型可以从“聪明人如何工作”中学习。邮件按时间线写到 4 月 21 日 Meta 安装键盘和鼠标追踪软件,4 月 30 日内部会议给出更直接解释,5 月 19 日 7000 名员工被调往 AI 团队,5 月 20 日约 8000 人被裁。邮件还简要提到 OpenAI IPO、Grok Skills、白宫要求 AI 公司提前 90 天向政府分享新模型、Airbnb 转向完整旅行 OS,以及即将进行的 LiveKit 语音 agent 直播。
这件事触及 AI 训练数据边界、员工监控、组织信任和自动化替代的敏感交叉点。
- — 邮件称 Meta 使用员工操作行为训练 AI。
- — 事件与 Meta 的 AI 团队重组和裁员时间线被并列呈现。
- — 语音 agent 生产化也是这期的辅助主题。
Google Pics 挑战 Canva,Airbnb 用 AI 扩展旅行操作系统
TLDR Design 这期从设计和产品角度看 AI 应用:Google Pics 是基于 Nano Banana 的 AI 图像编辑应用,可移动、缩放、转换图片局部元素,也能修改和翻译照片中的文字,并将整合 Slides、Drive 等 Workspace 应用,直接对标 Canva 的海报和社媒内容制作场景;Airbnb 则加入 boutique hotels、行李寄存、租车等服务,并用 AI 做房东 onboarding、愿望清单比较、评论总结和客服,聊天机器人已处理 40% 咨询,后续还计划语音助手。观点文章强调设计师应从“更快画图”转向 AI 体验架构,围绕工作流、系统和组织流程设计。
它展示了 AI 正在进入设计工具和服务型产品的核心流程,而不只是辅助生成素材。
- — Google Pics 可能成为 Workspace 体系内的 AI 视觉创作入口。
- — Airbnb 正在用 AI 支撑更完整的旅行服务平台。
- — AI 让设计角色向体验系统和组织流程设计扩展。
从 Qwen3.7 到 React2Shell:AI 编码时代更需要可验证工程
TLDR Dev 这期对开发者很密集:一篇文章讲团队用 AI coding agents 写出 13 万行 Rust 多 Paxos 共识引擎,将吞吐从 2.3 万提升到 30 万 ops/s,并依靠规格驱动和自动化测试保持可靠性;React2Shell 文章复盘 React Server Components/Next.js 使用的 Flight 协议中远程代码执行漏洞,展示复杂对象和 thenable 如何被利用;Qwen3.7-Max 被描述为面向 autonomous agent 的基础模型,强调跨数千次工具调用和多小时任务保持长期策略;另有 agent 测试分布式系统的 skills、Railway 因 GCP 错误暂停生产账户导致 8 小时故障的事故报告,以及 OpenAI 数学突破的补充。
它把 AI 编码的生产力、模型长程执行、安全漏洞和云依赖风险放在一起,说明“写得快”之外的验证体系变得更关键。
- — AI agents 可参与大型 Rust 分布式系统开发,但依赖规格和自动化测试。
- — React2Shell 提醒框架内部协议也可能隐藏严重 RCE 风险。
- — Qwen3.7-Max 的卖点是长程 agent 执行和复杂自动化。
SpaceX 与 OpenAI IPO 叙事之外,agent 友好代码库成为工程新课题
TLDR 主刊这期头条是 SpaceX IPO 文件和 OpenAI IPO 准备:邮件称 SpaceX 计划 6 月以 SPCX 在 Nasdaq 上市,去年营收 187 亿美元、亏损 49 亿美元,今年一季度营收 47 亿美元、亏损 43 亿美元;OpenAI 则被报道正与投行准备未来数天或数周内提交 IPO 文件,最快 9 月上市,但仍面临收入能否支撑支出承诺、内部目标未达等挑战。对 AI builder 更直接的一篇是 Basis 如何在三个月里让 monorepo 适合 code agents,原则包括可验证性、互操作性和 canonical context。邮件还提到 Gemini 3.5 Flash 开发者指南,强调 Thinking、结构化输出、工具、图像代码执行和组合工具使用,但不含 Computer Use。
它把资本市场故事和工程组织变化连接起来:AI 公司需要融资扩张,而普通软件团队也要重构代码库来适配 agent。
- — OpenAI 被报道准备 IPO,但商业化和支出压力仍是疑问。
- — Basis 的 agent-friendly monorepo 案例强调可验证性和 canonical context。
- — Gemini 3.5 Flash 开发者指南显示 Google 在 agentic execution 上继续推进。
OpenAI 数学突破成为 AI 科学发现叙事的主角
The Rundown AI 这期用更大众化的方式解读 OpenAI 数学突破:OpenAI 宣布内部通用推理模型推翻了与 Erdős 1946 年单位距离问题相关的长期信念,并称这是 AI 在数学发现中的首次级别事件。邮件列出关键事实:该证明引入代数数论方向的数学工具,经 Tim Gowers、Noga Alon、Thomas Bloom 等专家验证;结果来自即将发布的通用模型,不是 DeepMind AlphaProof 那样的数学专用系统;同时也承认 OpenAI 过去曾在 2025 年撤回过一次关于 Erdős 问题的夸大说法。邮件还提到 Google AI Co-Scientist 走向实验室、Claude context 审计、Emergence 的 AI alignment 对抗等内容。
它提供了对同一 OpenAI 事件的更清晰大众解释,并点出“数学是未来能力的领先指标”这一叙事。
- — OpenAI 模型结果经外部数学专家验证。
- — 邮件强调这是通用模型而非数学专用系统。
- — OpenAI 过去相关数学声明曾有争议,因此这次验证环节尤其重要。