今日精读:Google AlphaProof Nexus 解决 9 个开放 Erdős 数学问题
Google’s AI cracks nine unsolved math problems
The Rundown 今天主线是 Google DeepMind 的 AlphaProof Nexus:这个结合 LLM 与 Lean 形式化证明助手的系统,解决了 9 个开放 Erdős 问题,并证明了 OEIS 中 44 个开放猜想。邮件还提到 The Rundown Roundtable 的 AI 用例、构建 AI 日程秘书教程、Claude Mythos 发现大量关键漏洞,以及若干新 AI 工具和社区工作流。
今天最值得精读的是 Google DeepMind 的 AlphaProof Nexus 进展。过去一年,AI 数学能力经常围绕竞赛、基准题和考试成绩展开,但这封邮件强调的不同点在于:AlphaProof Nexus 面向的是真实开放数学问题,而不是封闭测试集。它解决了 9 个开放 Erdős 问题,其中包括两个悬而未决 56 年的问题,领域覆盖组合数学和图论;同时还证明了 Online Encyclopedia of Integer Sequences 中的 44 个开放猜想。系统的关键架构是把 LLM 与 Lean 证明助手结合:模型提出证明,Lean 对每一步做机器验证,如果证明无法通过就继续迭代。这让“AI 产生看似合理但不可验证的推理”这个老问题有了工程上的约束方式。邮件还给出一个很值得关注的成本信号:每个问题的求解成本只有几百美元。虽然它也指出,涉及全新数学构造的问题仍然够不到,说明系统还不是通用数学家,但这已经把 AI 在科研中的角色从“辅助搜索资料、写草稿、解训练题”推进到“参与发现并给出可验证证明”。对 builder 来说,这件事的启发不只在数学,而是形式化验证与生成模型结合的产品范式:在代码、合约、推理链、科学假设等高风险场景里,真正有价值的 AI 系统可能不是单纯更会生成,而是能在生成后被强约束、反复验证、自动修正。未来值得继续看的是:这类系统能否迁移到更多科研领域,Lean 等形式化工具链是否会成为 AI research infra 的核心组件,以及开放问题求解成本下降后,学术发现的组织方式会不会改变。
这是 AI 从 benchmark 能力走向真实科研产出的清晰信号,而且用形式化验证降低了幻觉风险。对所有做 agent、AI coding、AI research infra 的人来说,它展示了“生成 + 可验证执行环境”的强组合。
短期会提升数学、科学研究和形式化验证工具的关注度;中长期可能推动更多 AI 系统从聊天式输出转向可证明、可执行、可审计的工作流。对 builder 来说,验证层可能会和模型层同等重要。
- 01AlphaProof Nexus 结合 LLM 与 Lean 证明助手生成机器可验证证明。
- 02系统解决了 9 个开放 Erdős 问题,其中两个已悬而未决 56 年。
- 03它还证明了 OEIS 中 44 个开放猜想。
- 04每个问题的求解成本被描述为几百美元级别。
- 05需要全新数学构造的问题仍然超出系统能力范围。
- 06OpenAI 此前也宣布过 Erdős 相关突破,显示前沿实验室正在竞争真实数学发现能力。
- — 重点看系统如何把 LLM 的候选证明转化为 Lean 可验证证明。
- — 区分“解决已有形式化空间中的问题”和“提出全新数学构造”的能力边界。
- — 关注成本下降是否会改变开放问题筛选、验证和发表流程。
- — 把这个范式映射到代码、合约、安全和科学计算等可验证任务。
OpenAI 招募自我改进 AI 安全岗位,AI 公司和 AI 数学同时升温
AI Valley 今天覆盖三条核心新闻:OpenAI 正招聘年薪最高 44.5 万美元的安全岗位,以研究自我改进 AI、AI 生成网络攻击、隐藏模型行为和 AI 自动化技术工作的能力;AI startup Polsia 宣称无员工运营、估值 2.5 亿美元、AI agents 管理超过 8000 个业务;Google DeepMind 的 AlphaProof Nexus 解决 9 个开放 Erdős 数学问题并证明 44 个 OEIS 猜想。整体信号是:AI 的能力边界、组织形态和科研作用都在同时前移。
这封邮件把自我改进 AI 安全、AI-run startup 和可验证数学发现放在同一天,呈现出 AI 从工具走向自主系统的趋势。
- — OpenAI 新安全岗位关注未来自主系统风险与 AI 自动化技术工作的度量。
- — Polsia 宣称以无员工模式运营并接近 1000 万美元 ARR run rate。
- — AlphaProof Nexus 的数学成果强化了 AI 参与真实研究的叙事。
Claude Mythos、DeepSeek 降价、neocloud 和 MCP 新规范同时推进
TLDR AI 今天信息量很大:Anthropic 的 Claude Mythos 似乎正走向更广泛可用,并已在 Google Cloud 和 AWS 的漏洞发现项目中出现痕迹;DeepSeek 将 V4 Pro 75% 折扣永久化,加剧 AI 价格战;Mythos Preview 在 ExploitBench 和 ExploitGym 上展现出从漏洞生成 exploit primitives 并组合成端到端攻击链的能力;neocloud 叙事把 AI 算力建设与巨额基础设施周期相连;MCP 2026-07-28 规范候选稿引入 stateless core、extensions、更贴近 OAuth/OIDC 的授权和正式弃用政策,同时包含 breaking changes。
这封邮件同时覆盖模型安全、价格竞争、算力基础设施和 agent 协议层,是 builder 判断 AI infra 走向的一组关键信号。
- — Claude Mythos / Mythos Preview 的漏洞利用能力值得安全团队重点关注。
- — DeepSeek 永久降价可能继续压低前沿模型 API 价格预期。
- — MCP 下一版规范候选稿是协议发布以来最大修订之一。
Google Stitch 与 Replit Agent 4 推动设计和开发进入实时 AI 协作
TLDR Design 今天从产品设计视角看 AI 工具链变化:Google Stitch 被描述为实时设计工具,支持用户用文字或语音提示与 AI agent 协作,并把设计过程直接流式呈现在画布上,完成后可导出到 Google Antigravity 或通过 Netlify 发布;Replit Agent 4 在 iOS 回归,加入并行 agents、项目协作和多工作区视图。观点文章部分提醒,AI chat 流不擅长保存有价值的思考,AI 能快速给出原型但无法自动补上品牌差异化,staff designer 的价值也更偏方向、标准和团队能力建设。
这封邮件抓住了 AI 设计工具从静态生成走向实时协作,以及 AI 原型泛化导致品牌同质化的问题。
- — Google Stitch 支持实时 AI 设计迭代和画布级 steering。
- — Replit Agent 4 强调并行开发和协作流程。
- — AI 原型能力提升会让品牌差异化变得更稀缺。
Spotify 把 AI 音频做成授权、创作和分发平台
The Neuron 今天主线是 Spotify 的一组 AI 音频动作:与 Universal Music Group 建立 AI fan-made covers 和 remixes 的授权框架,要求艺术家同意、署名和收入分成;Studio by Spotify Labs 把邮件、日历和笔记转成个性化 AI 音频简报;ElevenLabs 驱动的工具让作者不用录音室也能生成有声书并发布到 Spotify;Spotify Reserved 则给超级粉丝优先购票窗口。邮件的核心判断是,纯 AI 生成音乐数量很多但听众很少,真正有价值的 AI 音频产品要把人的身份、版权和分发机制放在中心。
这是 AI 生成内容从“能生成”走向“可授权、可分成、可进入平台规则”的重要案例。
- — Spotify 与 UMG 为 AI 翻唱和 remix 建立同意、署名、分成机制。
- — Spotify Labs 推出可生成个性化音频简报的桌面应用。
- — ElevenLabs 工具降低作者制作有声书的门槛。
TLDR:Starship、agent 身份注册和开源供应链攻击
TLDR 今天覆盖更广泛科技新闻:SpaceX 新版 Starship 从 Starbase 新发射台升空,助推器分离成功但后续机动失败并坠入墨西哥湾,飞船进入太空后部署模拟卫星和拍摄卫星,最终在印度洋触水后爆炸;Sundar Pichai 在访谈中谈 AI 焦虑、Google Search 未来、AI agents 和给学生的建议;中国神舟二十三号任务可能带来中国最长的一年在轨停留;ITER 融合项目继续体现超大规模科研协作。对 AI builder 更直接的是 auth.md:用 Markdown 文件描述 agent 如何代表用户注册服务、支持哪些 flow 和 scope,以及由 agent 身份提供方为用户背书;邮件还警告 TeamPCP 正以前所未有规模污染开源代码和扩展。
auth.md 代表 agent 生态开始补“身份、授权、注册”基础设施;供应链攻击则提醒 AI coding 时代依赖链风险会被放大。
- — auth.md 试图用 Markdown 规范 agent 代表用户注册服务的流程和 scope。
- — TeamPCP 被描述为大规模污染开源工具并利用 VSCode 扩展攻击 GitHub。
- — Pichai 访谈体现大厂对 AI 焦虑、搜索和 agents 的公开叙事。