凌晨两点,你的K8s集群告警响了。按照以前的套路,你得爬起来,打开终端,一行行敲kubectl命令,运气好的话折腾半小时找到问题,运气不好还得连夜call同事。
现在呢?你可以跟Claude Code说一句话,/investigate deployment/checkout-7c9,它就开始自动查日志、查事件、查相关资源,五分钟后给你一个根因分析报告。
这就是kstack做的事。
这玩意是啥
kstack是Kubetail团队开源的一个技能包,装进Claude Code、Codex、Cursor这些AI编程工具里,就能用自然语言操控Kubernetes集群的监控、故障排查和审计工作。
官方说法是「让AI帮你做K8s监控」,但我实际用下来感觉更像是,给你的AI编程助手装了一双专门看K8s的眼睛。你想想看,以前你得记住一堆kubectl命令,现在直接说人话就行了。
它支持的AI agent还挺多,Claude Code、OpenAI Codex CLI、OpenCode、Cursor、Factory Droid、Slate、Kiro、Hermes、Pi,基本上市面上叫得上名字的都覆盖了。我自己用的是Claude Code,体验最顺。
一行命令,curl -sS https://kstack.sh/install | bash
装完之后直接在Claude Code里打 /cluster-status 就能看到集群健康快照
我能用它干嘛
核心技能分三类,监控、故障排查、审计。坦率的讲,故障排查是我用得最多的部分。
监控方面,/cluster-status 给你一个密集的健康快照,节点状况、Pod重启次数、资源压力,还能看到Ranked问题列表,按严重程度排好了。/events 把集群事件按严重程度排序,过滤掉Pulled/Created/Started这种噪音事件,只留真正有价值的Warning。
故障排查是重头戏。/investigate 接收一个出问题的资源名,pod、deployment、job都行,然后自动抓取相关日志、事件、关联资源,做根因分析。比如 /investigate pod/checkout-7c9,它会先抓这个Pod的spec和status,再查它对应的ReplicaSet和Deployment的事件,然后去拿当前容器和之前容器的日志,最后给出一份分析报告。
/logs 这个技能比较骚,你用大白话说想查什么,它帮你翻译成Kubetail查询语句,抓到日志之后开一个共享tmux session,你和AI一起看同一屏,AI不会乱刷日志浪费token,你也可以随时滚动查看自己想看的内容。我跟你说,这个共享session的体验真的很神奇,就是你真的感觉在和一个人并肩作战,而不是在对着一个黑箱。
审计方面,/audit-security 查RBAC权限和Pod安全态势,/audit-network 查NetworkPolicy和Ingress配置,/audit-cost 看资源请求和使用量的对比,找出过度配置的闲置容量,/audit-outdated 查已知CVE和可用版本升级。
怎么用它赚钱
说实话,这个项目的商业化路径不算直接,但有几个方向是跑得通的。我大概整理了一下,你们自己判断哪个适合自己。
-
🛠️
接K8s代维服务月入5k-3w 很多小团队没有专职SRE,但又确实需要有人帮他们盯着K8s集群。你可以用这套工具做远程代维,客户那边告警响了,你登录Claude Code调查,五分钟出诊断报告,发给客户确认后你再动手处理。按单次诊断加处理计费,月包服务打包卖,其实挺香的。
-
📊
卖审计报告服务单次500-2000 kstack的审计技能是全自动的,/audit-cost、/audit-security、/audit-network 分别跑一遍,一份完整的K8s集群健康报告就出来了。很多客户愿意为这类定期体检报告买单,尤其在融资前或并购前需要做技术尽调的场景。
-
🎓
DevOps培训加咨询时薪500-2000 把这套工具引入企业培训,教运维团队怎么用AI Coding Agent提升K8s管理效率。配套的培训课件、实验环境、prompt库都是可以打包卖的东西,我自己就见过有人这么跑通了的。
-
🔧
技能包定制开发单次3000+ kstack本身是开源的,但你可以基于它给特定行业做定制,比如给电商公司做专属的订单系统审计技能,给金融公司做合规检查技能。开源项目加一层行业定制,是经典的变现路径,这点我是有发言权的。
我自己试了一把
我是DevOps门外汉,日常做应用开发,K8s集群管理完全是另一个领域。但装好kstack之后,我花了十分钟跟Claude Code聊集群状态,它居然把我当成了运维老手,我问什么它答什么,还会主动告诉我「建议检查一下这个Pod的资源限制设置」。
这种感觉怎么说呢,就像你突然有了一个24小时在线的K8s助教,你问它任何问题它都不会嫌弃你蠢,而且它真的在帮你干活而不是在背八股文。你敢信???
对于想入行DevOps的人来说,这玩意的学习价值可能比商业价值还大,你不用先花几年成为K8s专家才能开始处理实际问题,直接用自然语言学,学到哪用到哪,这个节奏就很舒服。
它默认只会读集群,不会主动改集群。任何会修改集群状态的操作都需要你手动确认。我跟你说,这个设计是合理的,安全红线不能让AI自己踩,这点其实挺加分的。
值不值得试
如果你本身就是做DevOps或SRE的,这套东西可以无缝嵌进你的工作流,效率提升是肉眼可见的,我见过好几个运维朋友用了之后都直呼真香。
如果你不做运维但是管着一些K8s集群,比如公司技术负责人、产品经理转型tech lead这类角色,它也能帮你省掉大量「这个问题找谁问」的沟通成本,直接问AI,比找人飞书回复快多了,真的就是一声叹息。
如果你想用这个切入赚钱,核心逻辑是,工具出来了,用工具的人不一定懂行,但你比普通人更懂这个工具怎么用,就有了信息差。信息差就是钱,这话听着有点刺耳但它是事实。
kstack本身免费,但用好它产生的效率差是你的护城河,这玩意儿不复杂,但知道用它和不知道用它,差得不是一星半点。