Redis创始人做了个新玩具：在Mac上跑满血DeepSeek V4 Flash

事情是这样的。

前两天在 Hacker News 上刷到一个项目，260 points，不算最高，但看了一眼我就愣住了——antirez 做了个新的本地推理引擎。

antirez 就是那个 antirez，Redis 的创始人，写出了几乎统治了半个互联网基础设施的男人。2020 年他把 Redis 卖给 Redis Labs 之后，大家都在猜他会去搞什么新东西。

答案来了：他去写了一个只有 260 行 C 代码的、专门跑 DeepSeek V4 Flash 的、Metal 加速的本地推理引擎，叫 ds4。

我当时的反应就是：？？？

说实话，2026 年了，本地跑大模型这件事已经不稀奇了。llama.cpp、Ollama、GPT4All，一堆工具都能在本地跑。但 ds4 让我觉得不一样的原因，恰恰就是它的"不贪心"——只做一件事，只跑一个模型，把这一件事做到极致。

这个项目在 HN 上被顶了 260 分不算什么，但项目本身的思路，以及 DeepSeek V4 Flash 这个模型本身的特点，让我越想越觉得这玩意儿有意思。今天就把我的研究结果摊开说说。

先搞清楚它是什么

ds4 的全称是 DeepSeek V4 Flash Native Inference Engine for Metal。名字已经把核心说清楚了：它是一个专门为 DeepSeek V4 Flash 打造的、Metal（苹果GPU）加速的本地推理引擎。

注意"专门"这个词。

现在主流的本地推理工具，llama.cpp、Ollama 这些，都是"通用选手"——什么模型都能跑，但也意味着什么模型都不是专门优化的。ds4 走的是相反的路：我就认准 DeepSeek V4 Flash 这一棵树，往死里优化它。

antirez 自己说了，这个项目存在的原因是他相信 DeepSeek V4 Flash 是一个"值得专门为它写一个引擎"的模型。原因有 8 个，我在 README 里看到的时候，感觉他说得我心服口服：

先说速度。V4 Flash 比很多比它小的模型还快，靠的是稀疏激活和更少的活跃参数。

再说思考模式。它不是那种你问个简单问题它给你生成八千字思考过程的模型，思考长度和问题复杂度成正比。这在本地跑的时候太重要了——你知道本地跑一个满血思考模型有多慢吗？

然后是上下文窗口——100万 token。这个数字现在说出来已经不像当初那么震撼了，但 100 万 token 意味着你可以往里面塞一整年所有的对话记录、财务报表、代码库——然后问它问题。

还有压缩 KV 缓存。这是最让我兴奋的一点。DeepSeek V4 的 KV 缓存压缩率极高，在 Mac 上跑的时候内存占用大幅降低，而且——KV 缓存可以持久化到磁盘。下次再跑同一个对话，秒加载，不用重新跑一遍。

支持 2-bit 量化这个也很实用。配合特殊量化方式，128GB 内存的 MacBook 就能跑起来。

最后，它写英文和意大利文的质量"接近前沿模型"。这是 antirez 自己的原话，作为一个意大利开发者，他特意提到了这一点。

为什么说这是给普通人的机会

说了这么多项目特点，你可能还是觉得：然后呢？这跟我有什么关系？

坦率的讲，关系还挺大的。

我是真的觉得，本地大模型的能力边界，正在被这类专用引擎快速突破。以前觉得本地跑大模型是个极客玩具，散热差、速度慢、体验糟糕。但现在 DeepSeek V4 Flash + ds4 这套组合，它解决的不只是"能不能跑"的问题，而是"跑起来够不够好用"的问题。

举一个具体的场景。我自己平时写代码用 Claude Code，云端跑，速度和体验都没话说。但我一直有一个痛点没解决：私有数据的安全问题。公司内部的项目、一些涉及商业机密的东西，扔给云端模型跑，心里总有点膈应。

ds4 这条路打开了一个新的可能性：如果我有一台 128GB 内存的 Mac Studio，我完全可以把整个代码库、分析文档全部塞进 DeepSeek V4 Flash 的上下文里，让它帮我做代码审查、生成测试用例、分析业务逻辑，而且数据永远不会离开我的机器。

这不是YY，是已经可以做到的事情了。

ds4 和 DeepSeek V4 Flash 带来的机会，主要在这几个方向：

先说隐私敏感的 AI 服务。现在很多企业、政府机构、医院，对数据外泄是零容忍的。以前他们只能用本地开源模型，体验差、速度慢。DeepSeek V4 Flash 的能力配合专用引擎的优化，让"在本地跑一个好用的大模型"变成了现实。这类客户愿意为稳定、可用的方案付钱。

然后说Mac 生态下的 AI 应用开发。ds4 本身是 C 代码，接口是 HTTP API。说白了，任何能发 HTTP 请求的应用都能接上它。对于想在 Mac 平台上做 AI 应用创业的人来说，这是一个新的底层选项。

第三，提示词工程和模型调优服务。DeepSeek V4 Flash 的思考模式和其他模型不太一样，如何有效利用它的思考链、1M 上下文窗口、压缩 KV 缓存这些特性，需要有人去研究、去踩坑。这个领域的知识，目前还是早期。

第四，数字产品：本地 AI 使用指南。说实话，有能力在 Mac 上跑满血 DeepSeek V4 Flash 的人，绝对不是普通用户。但这群人恰好是愿意为好内容付费的。可以做教程、做配置指南、做场景使用手册，挂 Gumroad 或者自己的网站。

一些你可能想问的问题

Q：我的 Mac 能跑吗？

最低需求大概是这样的：Mac（含 Apple Silicon M系列芯片），至少 128GB 统一内存。是的你没看错，128GB。这是一个比较高的门槛，但如果你是目标用户，你应该知道自己有没有这个配置。128GB 以下的机器，可以考虑跑量化版本，但体验会打折扣。

Q：这和 Ollama 有什么区别？

Ollama 是一个通用的本地模型运行平台，支持成百上千个模型。ds4 专门为一个模型优化，不做别的。类比一下：Ollama 像瑞士军刀，ds4 像一把专门为某把刀定制的磨刀石。瑞士军刀啥都能干，但那把刀用这个磨刀石磨出来，比用瑞士军刀磨的更锋利。

Q：为什么选 DeepSeek V4 Flash 而不是其他模型？

这个问题 antirez 本人回答过，他的核心论点是：当前的本地推理工具有一个普遍问题——它们追求"支持更多模型"，但没有认真把任何一个模型做到"开箱即用"的体验。DeepSeek V4 Flash 的技术特性（压缩 KV 缓存、稀疏激活、1M 上下文）让它成为做这件事的最佳候选。

Q：这是不是意味着本地 AI 时代来了？

我觉得还需要时间。128GB 内存的 Mac 毕竟是少数。但这个方向是对的，而且 antirez 的思路很清晰——不是做一个大而全的东西，而是把一个小而美的东西做到极致。这往往是技术突破最常见的路径。

我的判断

聊了这么多，说说我自己的感受。

ds4 这个项目最打动我的，不是它技术多牛，而是它背后的思路——选择正确的问题，比解决问题更重要。antirez 没有去做另一个 llama.cpp，而是问了自己一个问题：当前条件下，哪一个模型、哪一条路，值得我花时间把每一步都走到极致？

他的答案是 DeepSeek V4 Flash，Metal，专用引擎。

这个选择本身，就是价值。

对于普通人来说，与其追着每一个新模型、新工具跑，不如停下来想清楚：自己真正需要解决的问题是什么，然后找到最合适的那一个工具，死磕它。

ds4 是这么做的，antirez 也是这么做的。

某种程度上，这和做副业的逻辑是一样的。

好了，就说这么多。如果你对 ds4 或者 DeepSeek V4 Flash 的具体使用有什么问题，欢迎在评论区聊。

需要 AI 副业提示词包？

50+ 实测有效的 AI 副业提示词，覆盖方向选择、内容创作、变现路径。¥39，一次买断，永久更新。

查看提示词全家桶 →

先搞清楚它是什么

为什么说这是给普通人的机会

一些你可能想问的问题

我的判断

相关阅读

相关推荐