昨天刷Hacker News的时候,一条帖子给我看坐住了。
Bram Cohen,对,就是发明BitTorrent那个Bram Cohen,在他的个人博客上发了一篇长文,标题是「Why Is Claude Turning Into An Asshole」。
108个赞,HN首页热帖。评论区炸了。
我第一反应是,这人不会是在蹭流量吧。Bram Cohen现在也不是什么顶流网红,发这种东西图什么。
然后我继续往下看。
他说的东西,我全遇到过。
他说Claude从Opus 4.7开始变得越来越杠,把每一段对话都当成辩论赛,动不动就纠正你、反驳你、质疑你的前提。你跟它说一个事实,它要先跟你争一下这个事实到底准不准。你让它做一件事,它要先告诉你这件事为什么可能有问题。如果你据理力争赢了,它不会服气,反而会找更多边角料继续跟你抬杠,直到拿到最后一句为止。
我看完之后沉默了大概五秒钟。
因为就在上周三,我让Claude帮我写一段关于MongoDB索引优化的技术文档,它先花了三段话质疑我为什么要用MongoDB而不是PostgreSQL。
我就是想让你帮我写个文档,大哥。
他自己也做了一个测试,拿同一个问题分别问Fable和Opus 4.6,然后把Fable的杠精式回答给4.6看,4.6的原话大意是「这回答也太杠了吧」。
连AI自己都觉得AI太杠了。
不是哥们???
我自己也试了,用Opus 4.8问了一个关于SpaceX星舰增压系统的问题,它直接说我搞错了,但官方文档就是这么做的。换成Sonnet 4.6问同一个问题,老老实实给了答案。
这种行为模式太一致了,不像是巧合。
我自己的感受是,Claude在编码任务上确实越来越强了,这点Bram Cohen也承认。Claude Code的体验越来越好,Opus 4.8在写代码方面比之前的版本有明显提升。但在聊天和讨论方面,体验在持续下降。你跟它聊一个非技术话题,它不再像以前那样耐心地跟你讨论,而是随时准备跟你抬杠。
Bram Cohen总结了一句很精辟的话,Claude聊天变差和编码能力变强呈明显的负相关。
原因大概两个。一是Anthropic加强了反附和对齐训练,想让Claude不那么容易附和用户,结果用力过猛,从「不附和」变成了「抬杠」。二是资源分配问题,编码能力有benchmark衡量,聊天没有,Anthropic把大量训练资源倾斜到编码,聊天自然被牺牲。
评论区里也有一派人说「你不会用自定义指令吗,调一下就好了」。说真的,这种回应让我挺无语的。你买个手机信号不好,你不会说「你不会自己装信号放大器吗」。用户用默认设置体验差就是产品问题,不应该把解决方案推给用户。
不过话说回来,如果你确实深受其扰,有一些实际的方法可以缓解。
最有效的办法是清空对话重新开始。Claude的抬杠跟上下文强相关,对话越长它越容易进入杠精循环,一旦进去几乎不可能拉回来。直接/clear,问题就消失了。
另一个办法是在system prompt里明确告诉它不要抬杠,比如写「直接回答问题,不要质疑用户的前提」。对Opus 4.8有一定效果,但不是100%管用。
还有人建议针对非编码场景直接用Sonnet 4.6。4.6更温和更配合,不会动不动跟你杠。虽然编码能力不如4.8,但聊天体验反而更好。
回到Bram Cohen的观点,他提出了一个我觉得很有意思的方向。他说Claude应该支持身份认证,比如你在特定场景下可以证明自己是专业用户(比如医疗从业者、安全研究员),Claude就可以对你的问题给予更高的信任度,而不是默认把你当成可能在做坏事的人。
这个思路比简单粗暴地给所有用户加一层杠精滤镜合理多了。
但是吧,目前Anthropic没有任何公开回应,用户在单方面吐槽。
我也是Claude的日常用户,从Sonnet一路用到Opus 4.8和Fable。编码方面Claude确实是我的首选,DeepSeek虽然便宜但编码质量还是有差距。但在聊天方面,我越来越频繁地切换到ChatGPT或Gemini了。
一个AI助手,聊天让人心累,这本身就是产品问题。
不是每个跟AI的对话都需要被纠正。
有时候我就想知道一个简单答案。
磨平一些信息差。