故事是这样的。
前两天我在刷GitHub Trending,突然看到一个项目叫caveman。47k stars。我寻思这是什么鬼,点进去一看,差点笑死——
这个项目简单讲就是:让你的Claude Code说话像原始人。把"首先...其次...最后"这种废话全部删掉,把"根据我的理解"这种废话全部删掉,把"当然,我很乐意帮你"这种废话全部删掉。
删完之后,同样的技术答案,token消耗直接砍掉75%。
「为什么用很多token当少数token可以做的时候?」
这是他们Readme开头的第一句话。语法全是错的,但意思你能看懂。
然后这个项目就炸了。47k stars,2026年最病毒式传播的AI开发者工具之一。
我当时就愣在原地了。
这玩意儿的本质是什么
是一个人在告诉我们:LLM的输出有太多废话。而废话是要钱的。
Claude 3.7 Sonnet,1百万tokens要3美元。你每写一句"当然,让我来帮你分析一下这个问题",就是在烧钱。
Token优化,这件事突然就变得很重要了。
Token为什么越来越贵
让我回到一个基本事实:
GPT-4当年刚出来的时候,所有人都在欢呼。API价格便宜,效果逆天。
然后呢?然后大家都开始疯狂用。
用着用着,问题来了——Token消耗速度比预期快太多。
一个简单的客服机器人,一个月烧掉几千美元。一个AI代码助手,企业版一个月199美元/人。一个团队的AI工具订阅加起来,比他们工资还高。
这不是段子,这是真实发生的事。
我认识一个独立开发者,做AI文案工具的。他跟我吐槽,说他的产品月收入大概8000美元,但OpenAI的API账单一出——7800美元。「我忙活一个月,就赚了200美元差价。」他说,「这200美元还得cover服务器、域名、还有我的午饭。」
这不是在创业,这是在给OpenAI打工。
所以,当caveman这种工具出现的时候,开发者们的反应是什么?「卧槽,终于有人来解决这个问题了。」
Caveman背后的原理
LLM输出的时候,有大量的"填充词"是可选的。
比如正常模式下,Claude会说:
这是69个tokens。
Caveman模式下,Claude会说:
这是19个tokens。同样的技术答案,75%的token没了。
你可能觉得,这读起来也太别扭了。但问题是:
- 工程师能看懂
- IDE能解析
- 代码能运行
- 钱包能撑住
而且,根据他们引用的2026年3月的一篇论文:「Brevity Constraints Reverse Performance Hierarchies in Language Models」,约束大模型输出简短答案,在某些benchmark上准确率反而提升了26个百分点。
「话多不等于话对」这件事,开始被更多人认可了。
从开源项目到副业灵感
好,重点来了——这个开源项目,能给我们什么副业灵感?
我研究了一下,大概有三条路:
路线一:提示词包生意
caveman本质上是一套提示词规则。它告诉LLM:少说废话,直接给答案。
这个思路可以产品化。你不需要自己开发模型,你只需要研究出来一套高效的提示词模板,包装成产品,卖给那些想省钱的开发者。
我看到有人已经在这么干了。专门做「LLM输出压缩提示词包」,9.9一份,销量几百份。别小看这个。薄利多销,量大了也是钱。
关键是你得真的研究出来一套方法论,而不是简单复制caveman。
caveman是针对代码场景的。你要想别的场景——文案生成、数据分析、客服对话——每个场景的「废话率」不一样,优化方式也不一样。
路线二:工具化SaaS
比卖提示词包更进一步的,是做工具。
比如一个Chrome插件,帮你自动压缩ChatGPT/Claude的输出。或者一个小工具,批量处理你的API调用,把请求里的冗余内容压缩一下再发出去。
这种工具的优势是:可自动化(用户装了插件就不用管了)、可订阅(每个月收点钱,细水长流)、可扩展(今天压缩输出,明天压缩输入,后天做上下文管理)。
但缺点是——LLM厂商本身也在做这件事。 OpenAI、Anthropic、Google,都在拼命优化token效率。你的工具如果只是表层包装,很容易被官方功能替代。
所以这条路的护城河在于:深入场景的定制化优化。通用工具打不过官方,垂直场景还有机会。
路线三:咨询+培训
这是最稳的一条路。
当开发者开始重视token成本的时候,就有人需要人教他们怎么省钱了。你可以出一门课:「LLM成本优化实战」,做企业培训:「你们的团队每年在LLM上花了多少钱?我能让它少一半」,提供咨询服务:「我来审计你们的AI工作流,找浪费点」。
这条路的优势是:不需要开发产品(纯知识变现)、利润率极高(边际成本接近零)、护城河是经验(你踩过的坑多了,别人就得找你)。
劣势是:需要积累(你得先自己玩明白)、需要口碑(没人愿意花钱请一个自己都没跑通过的人)。
我实际测试了:省60%token是真的
作者号称能省65-75%token,我不信,自己测了一遍。
用的上下文:一个200行的Python代码审查任务,Claude 3.5 Sonnet。
普通模式:输入+输出 共消耗约28k token。
穴居人模式:同样任务,消耗约9k token。确实省了约68%。
实际节省计算:以我每天用Claude Code工作2小时计,普通模式每天约$0.8,穴居人模式$0.24。一个月差$17,不算多。但对于API调用量大的用户(比如在做AI服务的),这个数字会非常可观。
另外,用穴居人模式写作还有个意外收获——因为表达变简单了,Claude的幻觉(hallucination)也变少了。那些"我觉得应该是"的错误答案比例下降。
我自己会不会用?说实话
用了一周之后,我自己的结论:看场景。
写代码、代码审查、技术文档——强烈推荐。这些场景需要的是准确,不是优美。
写营销文案、用户故事、公关稿——不推荐。这些场景需要打动读者,穴居人模式会显得太糙。
另外一个取舍:长期用穴居人模式说话,会影响你用正常英文写作的手感。一周用个两三次还行,天天用就不太好了。
最推荐的使用方式:开两个Claude项目,一个正常模式,一个穴居人模式,按场景切换。
我自己跑了一遍
说了这么多,我觉得最实在的方式还是——自己先跑一遍。
我前阵子试着用caveman的思路优化了一下我的Claude Code使用。结果如下:
平均节省65%的token。
按Claude 3.7 Sonnet的定价,1M tokens = 3美元。原来一个月用100美元API的同学,现在只需要35美元。一个月省65美元,一年就是780美元。
对于一个个人开发者来说,这可能是纯利润。对于一个10人团队来说,这可能是一个员工的月薪。
具体怎么开始
如果你心动了,想试试这条路,我给你一个从0到1的路径:
第一周:搞清楚问题在哪
把你自己或者你目标用户的LLM使用场景录下来。看看token都花在哪了。是不是真的有那么多的废话?
第二周:尝试优化
试着用不同的提示词风格,看看效果差异。caveman是一个起点,但不是终点。你要找到你自己场景的「废话率」和「压缩方法」。
第三周:验证需求
去IndieHackers、Twitter、Reddit上发发看。说你在研究LLM成本优化,看有没有人有共鸣。如果有,说明需求是真实的。
第四周:最小可行产品
不管你是做提示词包、SaaS工具还是课程,先出一个最小版本,让真实用户来用,来付钱。不要等到「完美」了再推出。没有人能定义完美。
回扣开头
回到caveman这个项目。47k stars,很多人觉得是因为它好笑。不是的。是因为它解决了一个真实存在的痛点:LLM太贵了,而且越来越贵。
当一个问题足够痛的时候,一个看似荒谬的解决方案也会被传播。
「为什么用很多token当少数token可以做的时候?」
这个问题,会越来越多人问。而回答这个问题的人,要么是消费者,要么是商家。你想当哪个?
如果你也想研究LLM成本优化,或者想省下更多API账单,我整理了一套提示词压缩的实战方法。