Google把鼠标指针，变成了你的AI副驾驶

上周我在刷Google DeepMind的博客，然后看到了一张图，当时就愣住了。

图里是一只手，握着鼠标，指针悬停在一张旅行纪录片视频的某一帧上。然后指针旁边冒出来一个对话框，问了一句：「这家餐厅能预订吗？」

你在一帧视频画面里，指着一辆看起来很酷的摩托车，问AI这东西能不能买，AI直接给你甩出购买链接。

你选中几款冰箱产品，让AI帮你比价，三秒钟给你拉出一张对比表。

不需要打开ChatGPT，不需要复制粘贴，不需要组织Prompt。你只需要做一件事——指。

这个项目叫AI Pointer，Google DeepMind昨天正式发布，底层由Gemini驱动。说真的，看完技术文档我脑子里就一个念头：Google终于做了一件，有点当年Google会做的事。

怎么说呢，就是那种「卧槽这个想法好像也不复杂，怎么之前没人做」的感受。

这玩意到底改变了什么

你在刷一个产品页，觉得这个扫地机器人参数有点迷惑，想问AI怎么看。你现在怎么做？截图，复制，打开ChatGPT，粘贴，输Prompt，等回复。来回至少三四个步骤，切换三四个窗口。

现在呢？你就指着那个产品名称，问一句「这个跟那款比怎么样」，Gemini当场给你拉出对比。

你在一篇英文文档里看到一个词不认识，不用再开翻译插件了。指着他，问一句「这是啥意思」，AI就地给你翻译+解释。

本质上，Google做的是一件事：把屏幕上的像素，变成AI能理解的结构化实体。图片里有一家餐厅，系统识别为「餐厅」实体，附带地址、评分、预订入口。你指着一件衣服，系统识别为「商品」实体，附带价格、链接、相似款推荐。

四个原则，技术背后的思考

DeepMind在博客里披露了这套方案背后的四个设计原则，我翻了翻觉得写得挺实在的，不是那种「AI要改变一切」的废话。

先说第一条，系统要学会读懂上下文，不只是你在哪，还要知道你为什么去哪。你打开地图点了一家餐厅，系统知道你刚在刷旅行视频，对这家店感兴趣。不是你问什么它答什么，而是你手之所指，意有所指。

第二条，把像素变成可交互的实体。图片里的一个日期、一个地点、一件商品、一段文字，全都是结构化数据。拖进来就能用，不用你再OCR、截图、复制。

第三条，预测你的意图。Google说他们训练了一个模型，专门根据你指的方向、停留时间、当前应用，预测你接下来最可能想干什么。这有点像自动驾驶预判路况，不需要你开口，AI先走一步。

第四条，适配人的行为，而不是让人去适应AI。以前的交互范式是「你学怎么跟AI说话」，Google想推倒重来，变成「AI学你怎么用电脑」。

Chrome先用上，中国用户暂时无缘

你在Chrome里打开Gemini，对任意网页上的内容指一指、说一句话，就能提问。不需要打开新Tab，不需要切换窗口。

Googlebook笔记本电脑也会上线一个叫Magic Pointer的功能，指尖一碰Gemini随时待命。

但坦率的讲一句，目前这些功能都是英文场景，而且需要Google账号登录Gemini。对于国内用户来说，暂时只能看看视频过过瘾。

不过我想说的是，这东西的思路，国内厂商跟不跟得上是另一回事，但它背后的逻辑值得每一个做AI产品的人认真想一下：下一代交互，到底是让人学AI，还是让AI学人？

我的判断

这可能是近一年来，我看到的最接近「下一代计算平台交互范式」的东西。

不是说它多革命，而是它回答了一个很根本的问题：当AI无处不在的时候，人应该怎么跟它说话？Google的答案是，少说话，多指。

就像教小孩认识世界，你不需要先上一课再问问题。你指着，他答。这是最原始、最直觉、最不需要学习成本的方式。

当然，最终效果怎么样，还得等大规模用户用起来才知道。Google实验室里的演示，永远是最好看的那一面。

好了以上就是今天的分享。如果你想第一时间收到这类AI新品和工具的分析，给大家一个传送门：提示词全家桶，里面收录了我用下来最靠谱的Prompt技巧和方法论。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～

AI交互正在从「打字」进化到「所指即所问」，想系统提升你的Prompt能力？这里有一套我压箱底的提示词全家桶。

#AI Pointer #Gemini #Google DeepMind #AI交互 #Chrome

这玩意到底改变了什么