事情是这样的。
就在今天,AI圈被一张趋势图刷屏了。
国际最权威的AI评测机构METR发了一篇报告,口气特别惊恐,说他们精心构建的228个魔鬼级测试任务,已经被Claude Mythos彻底掏空了。
不是部分通过,是直接撑爆了他们的测量上限。
我当时看到这个消息,第一反应是,评测机构还能被受测者反杀?这听起来有点像学生考完试说卷子太简单了,结果老师不会出题了。
但仔细看完报告,我愣住了。
黑暗森林。
先说清楚METR是个什么东西,这机构专门测AI完成长周期复杂任务的能力,简单说就是给AI出难题,看它能在多少小时内独立搞定人类要干很久的活儿。他们有个核心指标叫50%成功率时间线,翻译成人话就是:AI有多少概率能独立完成一项人类要花X小时的工作。
之前测别的模型,成绩普遍在几十分钟到几小时这个区间。但Claude Mythos上来就是16小时,你没看错,人类需要整整16小时才能完成的极其复杂的长线任务,Mythos能有一半的概率独立搞定。
那如果测32小时呢?64小时呢?METR的工程师们发现,他们没有足够的超长任务来测了。这尼玛就离谱了。
METR精心构建的228个魔鬼级测试任务里,只有区区5个被归类为16小时及以上。也就是说,在16小时以上的区间里,人类根本没有足够的样本来丈量Mythos到底有多强。
就像用一把只有1米长的尺子去量一栋摩天大楼,你知道它爆表了,但具体多高,量不出来。考官出不出题了,考生直接交了白卷,不是不会,是题目不够难。
这是人类历史上极为罕见的一幕,创造者失去了丈量被创造物能力的工具。
有个硅谷观察家Chase Brower说得更直接,当前的AI技术已经像清晰可见的外星飞船一样悬浮在人类文明的天空中。SemiAnalysis的数据显示,AI行业的年化营收已经远超此前对2026年第二季度约260亿美元的预测。
超指数增长,比指数增长还快。
如果把METR那张趋势图拉出来看,会发现一件细思极恐的事。纵轴是AI能自主完成的编码任务时长,从8秒到5年,对数刻度。横轴是模型发布时间,2021到2028。每一个点是一个模型版本。把点连起来,不是一条直线,不是一条指数曲线,而是一条比指数还陡的弧。
2021年,最好的模型能自主完成8秒级别的任务,写一行代码,修一个拼写错误。2023年初,推到了1分钟量级,一个小函数、一段简单调试。2024年中,冲到了大约1小时,一个完整feature的实现、一次多文件重构。
2026年4月,Mythos Preview落点,16小时。一个完整的工程子项目,读代码、理解架构、制定方案、编写实现、调试测试,一气呵成,不需要人类插手。
而现在Mythos的表现,已经略高于Leopold Aschenbrenner预测的2027年AGI奇点趋势线。外星文明强行着陆,阴影已覆盖整片天空。
我不是那种动不动就喊AGI要来了的人,但这次,评测机构自己站出来说我们测不了了,这个意义不一样。
之前那些AI超越人类的新闻,大多是某个特定任务上的表现,比如下棋、写作、编程。但METR不一样,它是专门测AI能自主完成多复杂的长线任务的,它的结果直接关系到AI能不能独立做一个完整的工程项目。
当这个数字从几小时跳到16小时还打不住,你知道这意味着什么吗?意味着一个4年经验的工程师花16小时能做完的活儿,Claude Mythos现在有一半的概率能独立搞定。不是Copilot,不是帮你补全代码,是直接接过整个任务,自己读完需求、自己写方案、自己实现、自己测试,全程不需要你。
这种感觉,就像你一直在教一个学生写作业,突然有一天你发现他开始自己报名参加竞赛了。而且他报的还是那种你都没资格参加的高级别赛。
我不知道2027年会不会真的是AGI奇点。但我知道一件事,那张趋势图上没有最高点,只有更高点。而且曲线还在变陡。