AI 编程评测该重做了
角度从 SWEBench 过测但不可合并的反差切入,写 AI coding 的真实门槛正在从“能跑”变成“能进主干”。
AI 写代码最尴尬的不是失败,而是看起来成功。Swyx 转述 METR 的结论:SWEBench 里超过一半结果都是维护者不可能合并的垃圾。也就是说,很多 benchmark 分数测到的只是幻觉里的工程能力。
模型在旧基准上越刷越高,但真实仓库需要的是可维护、可 review、能合并的改动。
下一代 AI 编程评测不一定更像考试,反而更像开源维护者的 PR 审核。
开发者评估 coding agent 时,别只看 pass rate,要加入 mergeability、diff 质量、回归风险和维护者接受度。