今日精读:AI 正在把理论物理推向「vibe physics」时代
Doing Vibe Physics — Alex Lupsasca, OpenAI
这封 Latent.Space 以 OpenAI 的理论物理学家 Alex Lupsasca 为主线,讲述前沿模型在理论物理研究中的能力跃迁:从帮助完成原本需要数天的计算,到在特定提示和热身题引导后复现他的重要论文结果,再到协助解决长期卡住的高能物理问题。它最值得关注的不是「AI 能不能写邮件更好」,而是模型能力在科研前沿任务上已经向外扩展,日常用户感知不到的能力提升,可能正在真正改变科学发现流程。
这篇最重要的价值在于,它把大模型能力的讨论从通用办公体验拉回到前沿智力工作本身。Alex Lupsasca 是基础物理领域的年轻重要研究者,曾因黑洞相关突破获得 2024 New Horizons in Fundamental Physics Breakthrough Prize。文章强调了一个「锯齿状前沿」:普通用户用 AI 写邮件、写常规代码时,可能只觉得新模型提升有限;但真正把模型推到极限的科研人员,看到的是边界突然向外移动。Alex 的例子很具体:他曾让 o3 协助研究计算,原本可能需要数天的工作在 11 分钟内得到结果;GPT-5 发布后,他尝试让模型解决一篇刚发表论文中的问题,最初模型没有直接给出答案,但在 Mark Chen 建议用教科书级热身问题进行 priming 后,模型复现了完整结果,而且该论文发布在模型训练截止之后。更进一步,Alex 与其哈佛导师 Andrew Strominger 相关团队多年未能推进的 single-minus gluon tree amplitudes 问题,在 ChatGPT 的帮助下通过识别 half-collinear regime 这样的极限情形取得突破。这里的关键不只是模型给出了答案,而是它找到了一条事后看起来有物理直觉的路径。对 builder 来说,这篇提醒我们:AI 产品的评估不能只看通用任务平均提升,真正的商业与科学价值可能出现在高门槛、低频、专家级任务上;而 prompt、priming、问题分解和专家判断,仍然决定模型能否越过边界。后续最值得关注的是,这类科研工作流会不会形成新的「AI scientist」工具链,以及 OpenAI 这类模型公司如何把专家经验转化为可复用的推理接口。
它提供了比常规 benchmark 更有启发的能力证据:模型在前沿科研中的表现,可能已经领先于普通产品体验能反映出来的水平。对 AI builder 来说,这说明下一代应用机会可能不在更会聊天,而在重塑专家工作流。
科研、工程和专业服务产品可能会从「辅助写作」转向「辅助发现」。如果类似能力可稳定复现,围绕专家验证、问题分解、实验记录、可追溯推理和领域工具调用的 AI infra 会更有价值。
- 01Alex Lupsasca 称 GPT-5 曾在约 30 分钟内复现他耗时很久才完成的重要论文思路。
- 02在 o3 辅助下,原本可能需要数天的理论物理计算被缩短到约 11 分钟。
- 03GPT-5 初次未能解决问题,但通过教科书热身题 priming 后,复现了训练截止之后才发表论文中的完整结果。
- 04ChatGPT 帮助推进了 single-minus gluon tree amplitudes 相关长期难题,并识别出 half-collinear regime 这一关键限制情形。
- 05文章强调新模型的价值在日常任务中可能不明显,但在科学前沿任务上已经出现巨大差异。
- — 读这篇时应区分「模型是否知道答案」和「模型是否能在专家引导下推理出答案」。
- — 关注 priming、热身题、专家反馈这些流程因素,而不只看模型名和参数。
- — 思考科研 AI 产品的关键护城河:领域数据、验证工具、推理记录,还是专家网络。
- — 警惕把个案直接外推成全自动科学发现,但也不要低估前沿任务上的非线性提升。
YC 的 OpenAI 股权、Gemini Webhooks 与企业 AI 合资同日成为焦点
这封 TLDR AI 覆盖了 AI 行业的商业、基础设施和开发者工具三条线:YC Research 早期参与 OpenAI,使 Y Combinator 持有约 0.6% OpenAI 股份,在当前估值下价值超过 50 亿美元;Anthropic 和 OpenAI 分别宣布由大型金融机构支持的企业 AI venture;Gemini API 支持 Webhooks,减少长任务轮询;OpenAI 低延迟语音基础设施、GPT-5.5 价格变化、AI 自动化研发、Tuna-2、Vercel Deepsec 和消费 AI ARPU 问题也被纳入同一期。
这期显示 AI 行业正在同时发生资本结构、企业交付模式和开发者接口的变化。对 builder 来说,Webhooks、语音低延迟架构和模型成本变化都是直接影响产品设计的信号。
- — Y Combinator 被称持有约 0.6% OpenAI,按当前估值约超过 50 亿美元。
- — Anthropic 和 OpenAI 分别推进企业 AI 合资或服务公司,估值目标和金融合作方成为重点。
- — Gemini API 新增 Webhooks,适合长时间任务的事件驱动通知,减少低效轮询。
从 CarPlay Ultra 到 AI-native 产品设计,设计行业正在重新处理复杂性
这封 TLDR Design 以产品体验与视觉趋势为主:CarPlay Ultra 目前只在 Aston Martin 上落地,多个车厂态度不明或退出,说明平台级体验进入硬件生态时阻力很大;Xbox 新 logo 被解读为从扁平化回到更有质感的视觉语言;Spotify 推出 Verified by Spotify 徽章以区分真实艺人与 AI 生成内容。更值得 AI builder 关注的是 Figma MCP 让 FigJam 成为 coding agent 的白板,以及「不要把 AI bolt-on 到产品上,而要从底层重想产品架构」的观点。
AI 产品设计的难点不是加一个聊天框,而是把意图式交互嵌入概念模型和架构。Figma MCP 也说明设计资产正在进入代码执行上下文。
- — CarPlay Ultra 的车厂扩展遇到不确定性,平台体验并不容易跨硬件生态复制。
- — Spotify 用认证徽章应对 AI 音乐与冒名内容。
- — AI-native 产品应重构交互和概念层,而不是只添加 AI 功能入口。
低延迟语音、Agent Skills 与 AI-native 面试指向工程流程重构
这封 TLDR Dev 聚焦工程实践:OpenAI 通过 split relay plus transceiver 架构重构 WebRTC,以支撑面向 9 亿用户的低延迟语音 AI;Stripe 用 Rust 重写的 rubyfmt 格式化超大 Ruby 代码库,目前覆盖 4200 万行 Ruby;Agent Skills 将高级工程习惯、规格说明和测试验证嵌入 AI coding agent 流程;Sierra 的 AI-native onsite 面试则把候选人的产品构思、AI 协作和 demo 能力放到核心位置。工具侧还提到 Manifest 智能模型路由和 Flue TypeScript agent 框架。
这期把 AI 工程化的几条关键路径放在一起:低延迟实时交互、超大代码库自动化、agent 工程纪律、模型路由降本。它比单个工具发布更能反映 AI 开发范式正在变。
- — OpenAI 使用无状态 relay 与有状态 transceiver 分离的 WebRTC 架构支撑低延迟语音。
- — Agent Skills 强调把规格、测试和验证流程内置到 coding agent,而不是只追求更快生成代码。
- — Sierra 的 AI-native 面试用产品计划、构建和 demo 替代传统纯编码面试。
医疗 AI 早筛进展与 OpenAI 诉讼财务线索同日出现
这封 The Neuron 的主线是两项医疗 AI 研究,尤其是 Mayo Clinic 的 REDMOD 模型可在常规 CT 中提前发现胰腺癌风险:研究分析近 2000 张原本被读作正常的 CT,AI 标记出 73% 的诊断前癌症,而专科放射科医生为 39%,中位提前量为 16 个月。邮件开头还讨论了 Musk v. Altman 诉讼中 Greg Brockman 的证词、个人日记被引用,以及 YC 约 0.6% OpenAI 股权可能带来的利益相关问题。
医疗早筛是 AI 从效率工具进入高风险决策场景的典型案例,事实增量明确。OpenAI 诉讼和 YC 股权部分则提醒行业,AI 巨头治理结构会持续影响市场信任。
- — Mayo Clinic REDMOD 在近 2000 张常规 CT 中识别诊断前胰腺癌,敏感度高于专科医生对照。
- — 对超过两年前的扫描,AI 敏感度据称是人类医生的三倍。
- — 邮件同时跟进 Greg Brockman 证词、个人日记和 YC 持股 OpenAI 的争议信号。
OpenAI 高管财务审视、Amazon 物流云化与 SpaceX 轨道算力前置
这封 TLDR 是综合科技版,重点包括 Greg Brockman 在 Musk 诉讼中作证,Musk 律师试图证明其受金钱动机影响;Amazon 推出 Amazon Supply Chain Services,把自建物流能力开放给第三方,试图复制 AWS 式平台化;SpaceX 在得州建设先进太阳能电池工厂,为未来轨道数据中心和 AI 工作负载做供应链垂直整合;工程侧还提到 Stripe rubyfmt 大规模格式化,以及 Redis Array 类型开发中 AI 辅助处理复杂算法和 bug。
这期虽不全是 AI,但有两条对 AI 行业关键:OpenAI 治理风险和 SpaceX 轨道云基础设施。Amazon 物流服务化也提供了从内部能力到平台业务的类比。
- — Musk v. Altman 诉讼继续围绕 OpenAI 非营利使命与高管财务动机展开。
- — SpaceX 建设太阳能电池工厂,服务未来轨道云和 AI 工作负载设想。
- — Redis Array 类型开发案例显示 AI 可帮助开发者进入原本会避开的复杂度。
产品管理进入 Agent-native 阶段,AI 公司也该补上支持和上下文能力
这封 TLDR Product 从产品策略角度讨论 AI 时代的管理变化:好产品策略是删除无效功能而不是继续增加;西方市场反复追逐 super app 但常因复杂性和 UX 失败;AI 公司普遍支持能力不足,隐藏流失会被低估;Agent-native PM 指出 AI 正自动化执行层,产品经理的优势转向战略、指标和学习循环。它还提到 Atlassian 与 ServiceNow 这类 AI-enabled IT 管理平台的价值会转向 context graph,即谁拥有业务上下文数据图,谁更可能捕获 AI 价值。
这期适合产品和创业团队校准:AI 不是让产品无限加功能,而是要求团队更清楚地定义目标、停手条件、支持体系和上下文资产。
- — Agent-native PM 的核心是 AI 自动化执行,PM 价值转向战略、指标和学习循环。
- — AI app 支持不足可能造成隐藏流失,真人支持和快速反馈仍是优势。
- — Atlassian 与 ServiceNow 的 context graph 说明企业 AI 价值在上下文数据,而不只是模型。
AI 数据中心开始出海:Panthalassa 用波浪能源做浮动计算节点
这封 The Rundown AI 的主新闻是 Peter Thiel 领投 Panthalassa 1.4 亿美元 B 轮,后者计划建造 85 米钢制海上计算节点,利用海浪发电、海水自然冷却,为 AI 芯片供能,并通过 Starlink 回传结果。节点可在无发动机情况下依靠船体形状驶向远海,融资将用于完成波特兰附近试点工厂,并在太平洋部署首批波浪供能计算节点,商业化计划指向 2027 年。邮件还提到 Anthropic 联合创始人对 AI 自我构建时代的预测、用本地模型替代 Siri、OpenAI 与 Anthropic 的私募股权合作等。
算力供给已经不只是芯片问题,还涉及土地、电力、冷却、公众阻力和通信链路。海上数据中心比太空数据中心更近,也更能体现 AI infra 的物理化趋势。
- — Panthalassa 获 Peter Thiel 领投 1.4 亿美元 B 轮,估值据称接近 10 亿美元。
- — 每个 85 米海上节点用波浪发电、海水冷却,并通过 Starlink 回传 AI 计算结果。
- — 公司计划在太平洋部署首批节点,商业 rollout 指向 2027 年。