事情是这样的。
原以为这个疯狂的AI疯狂更新应该已经告一段落了,没想到,上周才发V4的DeepSeek,突然又抛出一个更大的惊喜。
就在刚刚,DeepSeek上线了识图模式,显示正在灰测中。那结果会怎样呢,讨论了一整年的DeepSeek多模态能力,终于来了!
目前DeepSeek网页版和App更新后都有机会被灰测到,APPSO第一时间给大家进行了实测。我跟着跑了一遍,发现这件事有意思的地方,根本不在答案本身。
在于过程。
DeepSeek负责多模态的研究员陈小康在X上发文,Now, we see you,配了一张图,我们就让DeepSeek来解读一下这张图什么意思。
结果它能识别出这张图背后的隐喻,虽然图中没有任何关于DeepSeek的字眼,但它结合对发布者身份和图像的识别,推断出这是关于DeepSeek多模态能力的更新。
最后给出一句十分到位的总结
那个看不见世界的鲸鱼,现在终于睁开眼了。
比起回答结果,APPSO发现DeepSeek识图模式的思考过程更有意思。过去AI来看那张推特截图,大概率是老老实实描述,两只蓝色鲸鱼,左边戴眼罩,右边没戴。
但DeepSeek它上来就开始追问,这人是谁?他为什么发这个?鲸鱼logo代表什么?眼罩上的XX又在暗示什么?
这才是我们刷到一张梗图时脑子里真正发生的事。没人会先数鲸鱼有几只,我们关心的是谁在对谁说什么,用的什么潜台词。
而且它还会来回的自我纠正。比如它甚至一度把图中的眼罩联想到《天才突破》里卡米那的眼镜,然后自己打脸,不,这太宅男向了。等等,仔仔细细看……再换个角度……
前面那些推理、联想、自我纠正,都挺精彩的。但整段思考过程里最反常的部分,其实是它推理到快收尾时,忽然自己喊了个暂停,给自己开了一场小型答辩会。
它列出三个问题自问自答,先确认客观事实,再推测事件性质,最后才做解读。DeepSeek把这个我们自己都没意识到的思维习惯,做成了识图的思考逻辑。
就像我们平时给结论之前,脑子里也会过一遍,等等,这个前提对吗?那个假设站得住吗?万一我理解错了方向呢?
我们还把经典的AI测试题,数手指,抛给了DeepSeek。
它思考了一通,还是回答错了,中间还吐了一句,我真的是数懵了。
不过如果我再引导一下,它还是能够给出正确答案的。
另外一个经典的爱心测试,这个图之前难倒了所有AI,DeepSeek同样没能识别出来。
抛开这些难度较高的极限测试,初步测试下来,DeepSeek识图的准确率其实还是比较高的,不开思考模式的话甚至半秒就能给出回答。
比如这个电影照的识别,应该已经在数据库内了。
对抽象图片的理解也十分到位。
优衣库这个商品图的理解也没有问题。
不过这个识图的过程应该没有联网搜索,只能基于知识库回答,所以一些比较新的东西,就无法识别,比如苹果这个新的吉祥物Finder酱。
而且识图模式上传的文件格式也有限制,比如不支持HEIF格式。
DeepSeek识图模式上线,意味着那只鲸鱼终于睁眼了,但也许只是刚刚开始。
我的感受
说实话,我看到这条消息的时候,第一反应不是「又多了一个功能」,而是有点被它的思考过程打动了。
它不是直接给你答案,它是先追问、再联想、然后自我纠正——这套流程,是不是像极了我们面对一个复杂问题时的真实思考方式?
以前我们总觉得AI的回答太「干」,就是因为它跳过了中间那些「等一下,让我再想想」的犹豫环节。而DeepSeek这次的识图模式,等于是把黑箱打开了给你看。
这不是功能更新,这是能力升维。
如果你还没被灰测到,建议再等等——或者,你也去找张梗图发给它,看看它能不能读懂你的潜台词。
这种被AI「看透」的感觉,还是挺让人头皮发麻的。