事情是这样的。
上周我在刷Google DeepMind的博客,然后看到了一张图,当时就愣住了。
图里是一只手,握着鼠标,指针悬停在一张旅行纪录片视频的某一帧上。然后指针旁边冒出来一个对话框,问了一句:「这家餐厅能预订吗?」
不是哥们???
你在一帧视频画面里,指着一辆看起来很酷的摩托车,问AI这东西能不能买,AI直接给你甩出购买链接。
你指着一张手写的便签,它自动识别成待办清单。
你选中几款冰箱产品,让AI帮你比价,三秒钟给你拉出一张对比表。
不需要打开ChatGPT,不需要复制粘贴,不需要组织Prompt。你只需要做一件事——指。
这个项目叫AI Pointer,Google DeepMind昨天正式发布,底层由Gemini驱动。说真的,看完技术文档我脑子里就一个念头:Google终于做了一件,有点当年Google会做的事。
怎么说呢,就是那种「卧槽这个想法好像也不复杂,怎么之前没人做」的感受。
我们先退一步,想想平时怎么用AI处理屏幕上的东西。
你在刷一个产品页,觉得这个扫地机器人参数有点迷惑,想问AI怎么看。你现在怎么做?截图,复制,打开ChatGPT,粘贴,输Prompt,等回复。来回至少三四个步骤,切换三四个窗口。
现在呢?你就指着那个产品名称,问一句「这个跟那款比怎么样」,Gemini当场给你拉出对比。
你在一篇英文文档里看到一个词不认识,不用再开翻译插件了。指着他,问一句「这是啥意思」,AI就地给你翻译+解释。
本质上,Google做的是一件事:把屏幕上的像素,变成AI能理解的结构化实体。图片里有一家餐厅,系统识别为「餐厅」实体,附带地址、评分、预订入口。你指着一件衣服,系统识别为「商品」实体,附带价格、链接、相似款推荐。
像素不再是死的了。他活过来了。
DeepMind在博客里披露了这套方案背后的四个设计原则,我翻了翻觉得写得挺实在的,不是那种「AI要改变一切」的废话。
先说第一条,系统要学会读懂上下文,不只是你在哪,还要知道你为什么去哪。你打开地图点了一家餐厅,系统知道你刚在刷旅行视频,对这家店感兴趣。不是你问什么它答什么,而是你手之所指,意有所指。
第二条,把像素变成可交互的实体。图片里的一个日期、一个地点、一件商品、一段文字,全都是结构化数据。拖进来就能用,不用你再OCR、截图、复制。
第三条,预测你的意图。Google说他们训练了一个模型,专门根据你指的方向、停留时间、当前应用,预测你接下来最可能想干什么。这有点像自动驾驶预判路况,不需要你开口,AI先走一步。
第四条,适配人的行为,而不是让人去适应AI。以前的交互范式是「你学怎么跟AI说话」,Google想推倒重来,变成「AI学你怎么用电脑」。
具体落地节奏,Google说现在已经在Chrome里灰度测试了。
你在Chrome里打开Gemini,对任意网页上的内容指一指、说一句话,就能提问。不需要打开新Tab,不需要切换窗口。
Googlebook笔记本电脑也会上线一个叫Magic Pointer的功能,指尖一碰Gemini随时待命。
但坦率的讲一句,目前这些功能都是英文场景,而且需要Google账号登录Gemini。对于国内用户来说,暂时只能看看视频过过瘾。
不过我想说的是,这东西的思路,国内厂商跟不跟得上是另一回事,但它背后的逻辑值得每一个做AI产品的人认真想一下:下一代交互,到底是让人学AI,还是让AI学人?
Google选了后者。
这可能是近一年来,我看到的最接近「下一代计算平台交互范式」的东西。
不是说它多革命,而是它回答了一个很根本的问题:当AI无处不在的时候,人应该怎么跟它说话?Google的答案是,少说话,多指。
就像教小孩认识世界,你不需要先上一课再问问题。你指着,他答。这是最原始、最直觉、最不需要学习成本的方式。
当然,最终效果怎么样,还得等大规模用户用起来才知道。Google实验室里的演示,永远是最好看的那一面。
但方向,我认为是走对了。
好了以上就是今天的分享。如果你想第一时间收到这类AI新品和工具的分析,给大家一个传送门:提示词全家桶,里面收录了我用下来最靠谱的Prompt技巧和方法论。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~
谢谢你看我的文章,我们,下次再见。