事情是这样的。
我最近一直在捣鼓 AI Agent。Computer Use、CUA、各种号称能「替人操作电脑」的东西,太火了,火到你都不敢不关注。
但做技术的朋友都知道,一个东西火不火跟它实不实用,是两码事。所以我一直想搞清楚一件事,这一套 Computer Use 到底贵不贵?
今天在 Hacker News 上看到一篇文章,标题就很直接,「Computer Use is 45x more expensive than structured APIs」,来自 Reflex 团队的实测。346 个赞,评论区两百多楼,全在讨论这个事儿。
我寻思了一下,觉得这个数据挺有意思,值得拿出来聊聊。
同一样任务,换个方式做,差了45倍
Reflex 团队拿实际的 web 自动化场景做了对比。比如填写一个表单,或者抓取一个页面数据,一边用 Computer Use(让 AI 像人一样看屏幕、点按钮),一边用传统的结构化 API(直接调接口拿数据)。
结果出来了,计算机使用的成本是结构化 API 的 45 倍。
说真的,这个数字比我预想的还要大。我以为 5 倍 10 倍撑死了,结果直接来了个 45。
想想也合理。Computer Use 干活的方式是打开浏览器、截图、分析像素、决定鼠标移到哪、点击、截图、再分析,每一步背后都是大模型在推理。而结构化 API 就是直接发一个 HTTP 请求拿 JSON,处理成本差了几个数量级。
用 Anthropic 的 API 算一下账更直观,Computer Use 调用一次可能几美分到几十美分,一个任务可能要来回调用几十次。结构化 API 一次请求可能就几百分之一美分。积少成多,45 倍就是这么来的。
但问题不是「谁比谁贵」
你说 Computer Use 没用吗?当然不是。
坦率地讲,Computer Use 能做的事情,结构化 API 根本做不到。比如你去一个没有 API 的老系统里导数据、或者帮客户操作一个只提供了网页界面的 SaaS 工具、或者跨多个完全不相关的平台做自动化,这些场景结构化 API 就是一堆废纸,只能靠 Computer Use。
反过来,如果你要操作的平台有成熟的 API,那你非要用 Computer Use 去截图点按钮,那就是手贱了。
但我自己的感受是,现在很多团队一上来就说「我们要上 AI Agent」,然后一个活干完了掏出一张几万块的账单,才发现这条路走歪了。不是说 Agent 不行,而是说你得搞清楚在什么场景用、怎么用才划算。
就像你有个螺丝刀,也有个电动起子,电动起子很酷没错,但你拧个普通的螺丝非要用电动起子,还给每颗螺丝配一个专用充电器,那不是浪费是啥。
一个让我挺感慨的洞察
评论区一条高赞回复挺有意思。有人说这篇文章其实揭示了一个反过来的问题,如果你想让你的网站不被 AI Agent 轻易操作,你完全可以故意让 Computer Use 变贵。比如按钮位置随机移动、鼠标路径检测、JavaScript 生成随机标签名,这些招数听起来像是防机器人,但实际上它的效果是让 AI Agent 在你的网站上烧更多的钱。
这话说得我愣了一下。然后一想,很多企业的 SaaS 产品不早就在干这事儿了吗?换个角度想,这其实把「防爬虫」这套传统的对抗逻辑,搬到了一个新的维度上。
还有一点,评论区很多人提到一个根本性的问题,Computer Use 目前最大的瓶颈不是价格,而是可靠性。你花 45 倍的钱换来一个只有 70% 成功率的替代品,在大多数生产场景下是没法接受的。所以很多做 AI Agent 的朋友现在搞的不是让 Agent 自己更聪明,而是给它加各种校验和兜底逻辑,截图验证一下上一步操作有没有生效、失败了自动回滚重试。每一层校验都是额外成本,叠上去更吓人。
回到现实
我自己的判断是,未来很长一段时间里,AI Agent 和传统 API 会是一个「混合架构」。能用 API 的部分用 API,快、稳、便宜。那些 API 覆盖不了的地方,再让 Computer Use 上。而不是一股脑全用 Agent 走「人机交互」的路线。
前几天我还在跟朋友聊,很多做 AI Agent 的创业公司,核心卖点是「让 AI 替代人操作电脑」。但你仔细想想,你雇一个员工让他天天点鼠标,一个月给他发几千块工资,你都说这工作没意义。结果你让 AI 花 45 倍的成本去点鼠标,这笔账怎么算都不对。
不过我也不是唱衰。
Computer Use 这个方向本身很牛逼。只是它现在就像一个刚刚能工作的实习生,动作慢、容易犯错、每个指令都贵。但这东西的迭代速度太快了,一年前我们还在说 GPT-4 的 API 调用太贵,现在价格已经降了不知道多少倍。说不定明年再回头看这个 45 倍,就已经变成 5 倍了。
关键是大方向没毛病,AI Agent 的大潮不可能停下来。但现在这个阶段,我们在做技术选型的时候,还是得多算算账。不能因为一个东西听起来很酷,就闭着眼睛往上冲。
数据摆在那里了,自己掂量。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧~