Claude Mythos把METR评测撑爆了：人类连丈量AI的尺子都不够用了

事情是这样的。

就在今天，AI圈被一张趋势图刷屏了。

国际最权威的AI评测机构METR发了一篇报告，口气特别惊恐，说他们精心构建的228个魔鬼级测试任务，已经被Claude Mythos彻底掏空了。

不是部分通过，是直接撑爆了他们的测量上限。

我当时看到这个消息，第一反应是，评测机构还能被受测者反杀？这听起来有点像学生考完试说卷子太简单了，结果老师不会出题了。

但仔细看完报告，我愣住了。

黑暗森林。

先说清楚METR是个什么东西，这机构专门测AI完成长周期复杂任务的能力，简单说就是给AI出难题，看它能在多少小时内独立搞定人类要干很久的活儿。他们有个核心指标叫50%成功率时间线，翻译成人话就是：AI有多少概率能独立完成一项人类要花X小时的工作。

之前测别的模型，成绩普遍在几十分钟到几小时这个区间。但Claude Mythos上来就是16小时，你没看错，人类需要整整16小时才能完成的极其复杂的长线任务，Mythos能有一半的概率独立搞定。

那如果测32小时呢？64小时呢？METR的工程师们发现，他们没有足够的超长任务来测了。这尼玛就离谱了。

METR精心构建的228个魔鬼级测试任务里，只有区区5个被归类为16小时及以上。也就是说，在16小时以上的区间里，人类根本没有足够的样本来丈量Mythos到底有多强。

就像用一把只有1米长的尺子去量一栋摩天大楼，你知道它爆表了，但具体多高，量不出来。考官出不出题了，考生直接交了白卷，不是不会，是题目不够难。

这是人类历史上极为罕见的一幕，创造者失去了丈量被创造物能力的工具。

有个硅谷观察家Chase Brower说得更直接，当前的AI技术已经像清晰可见的外星飞船一样悬浮在人类文明的天空中。SemiAnalysis的数据显示，AI行业的年化营收已经远超此前对2026年第二季度约260亿美元的预测。

超指数增长，比指数增长还快。

如果把METR那张趋势图拉出来看，会发现一件细思极恐的事。纵轴是AI能自主完成的编码任务时长，从8秒到5年，对数刻度。横轴是模型发布时间，2021到2028。每一个点是一个模型版本。把点连起来，不是一条直线，不是一条指数曲线，而是一条比指数还陡的弧。

2021年，最好的模型能自主完成8秒级别的任务，写一行代码，修一个拼写错误。2023年初，推到了1分钟量级，一个小函数、一段简单调试。2024年中，冲到了大约1小时，一个完整feature的实现、一次多文件重构。

2026年4月，Mythos Preview落点，16小时。一个完整的工程子项目，读代码、理解架构、制定方案、编写实现、调试测试，一气呵成，不需要人类插手。

而现在Mythos的表现，已经略高于Leopold Aschenbrenner预测的2027年AGI奇点趋势线。外星文明强行着陆，阴影已覆盖整片天空。

我不是那种动不动就喊AGI要来了的人，但这次，评测机构自己站出来说我们测不了了，这个意义不一样。

之前那些AI超越人类的新闻，大多是某个特定任务上的表现，比如下棋、写作、编程。但METR不一样，它是专门测AI能自主完成多复杂的长线任务的，它的结果直接关系到AI能不能独立做一个完整的工程项目。

当这个数字从几小时跳到16小时还打不住，你知道这意味着什么吗？意味着一个4年经验的工程师花16小时能做完的活儿，Claude Mythos现在有一半的概率能独立搞定。不是Copilot，不是帮你补全代码，是直接接过整个任务，自己读完需求、自己写方案、自己实现、自己测试，全程不需要你。

这种感觉，就像你一直在教一个学生写作业，突然有一天你发现他开始自己报名参加竞赛了。而且他报的还是那种你都没资格参加的高级别赛。

我不知道2027年会不会真的是AGI奇点。但我知道一件事，那张趋势图上没有最高点，只有更高点。而且曲线还在变陡。