autoresearch是什么？

Karpathy最新开源项目，一个能让AI agent自动运行LLM训练实验的工具。你给AI一个研究任务，它自己修改训练代码、跑实验、检查结果、迭代优化，第二天早上看日志就行。

autoresearch对普通人有什么用？

1）学习LLM训练原理的互动实验台；2）针对特定垂直领域定制化训练小模型；3）理解AI Agent能力边界的窗口。暂时不是躺赚工具，但对想深入AI底层的人很有价值。

需要什么硬件才能跑？

一块NVIDIA GPU（项目文档说测试过H100），Python 3.10+，以及uv包管理器。官方说单GPU就够了，入门门槛比想象中低。

Karpathy做了一个「AI科学家」，让它自己研究了一晚上，我的感受是...

GitHub 8万星：让AI自己改训练代码、自己跑实验，醒来后告诉我结果

事情是这样的。

前两天刷GitHub，发现Karpathy又发了一个新项目，不到一个星期，冲了8万星。

项目名叫autoresearch，描述很短：AI agents running research on single-GPU nanochat training automatically。

翻译过来就是，让一个AI agent在单GPU上自动跑nanochat训练实验。

我第一反应是，这尼玛什么科幻片剧情？

然后我去读了他的README，读完觉得有点被震撼到了，不是因为技术多复杂，而是这个想法本身太有意思了。

我先说说这个项目是干嘛的，然后聊聊我的感受，以及，我们普通人能用它来做什么。

一个离谱的问题

Karpathy在项目描述里写了一句话，我反复看了好几遍：

Frontier AI research used to be done by meat computers in between eating, sleeping, having other fun.

翻译成人话就是，以前前沿AI研究都是我们这些「肉做的计算机」在吃饭睡觉的间隙抽空做的。

这句话听起来像吐槽，但其实在说他看到了一个机会，如果让AI agent来跑研究实验，而不是人类呢？

他做了一件事：给AI agent一个简化但真实的LLM训练环境（基于nanochat，单GPU就能跑），然后让它自己决定改什么参数、怎么优化、跑什么实验。你睡觉的时候它在跑，你醒来的时候它告诉你结果。

每次实验预算5分钟wall-clock时间，不管你的GPU是H100还是3080，都是5分钟。评价指标是val_bpb（validation bits per byte），越低越好。

这个设定太骚了，相当于，把AI研究变成了一种可量化的、可以自动化加速的流程。

怎么工作的

项目结构极度精简，整个repo只有三个真正重要的文件：

prepare.py：数据准备和Tokenizer训练，一次性运行，不修改
train.py：完整的GPT模型+优化器+训练循环，这个文件是agent会修改的
program.md：给AI agent的指令文件，这个是人类修改的

最后一条是关键，你不是去改Python代码来引导研究，而是改Markdown文件来给AI agent指令。

你想研究什么方向，就在program.md里写清楚，然后让Claude Code或者Codex去执行，它会自己看代码、自己改参数、自己跑实验、自己看结果变好还是变差。

这就是他说的「你不碰Python文件，你碰Markdown文件」，本质上是在构建一套「研究代理协议」，而不是具体的实验代码。

为什么这个想法值得重视

我知道你在想什么，5分钟能研究出个屁啊？

但仔细想想，这个框架的真正价值不在于5分钟能做什么，而在于它引入了一个新的研究模式：

人类定义研究空间，AI负责探索空间。

你打开program.md，写下「我想让模型在常识推理任务上表现更好」，然后AI agent开始自己摸索。它可以改模型架构、改优化器、改batch size、改学习率调度，任何你没想到的地方它都可能去试。

这不是在说AI会替代研究员，而是在说，以前一个人的研究速度受限于「肉做的计算机」能跑多少实验，现在这个瓶颈被打开了。

类比一下，AlphaGo的故事还记得吗？AlphaGo Master赢了李世石，AlphaGo Zero用3天自我对弈超过了Master，再3天超过了最初的AlphaGo。没有人类棋谱，完全靠自我对弈迭代进化。

autoresearch在LLM训练领域做的是类似的事情，让AI在「训练实验」这个空间里自我进化。

什么人适合玩这个

说实话，这个项目目前不是那种「装上就能用」的工具。

你至少需要：

一块NVIDIA GPU（文档说测试过H100，但理论上消费级GPU也可以）
Python 3.10+
uv包管理器
愿意读英文文档的耐心

坦率的讲，这个门槛比大多数AI工具高。

但如果你满足这些条件，我觉得有几种人特别值得试试：

第一种，想深入理解LLM训练的人。与其看教程读论文，不如让AI agent跑给你看。你改一个参数，AI会告诉你结果，你就能直观理解每个参数的作用。这比任何教科书都生动。

第二种，在垂直领域做定制化小模型的。比如你想训一个专门处理你所在行业术语的模型，autoresearch提供了一套可以自动化探索最优配置的基础框架。

第三种，对AI Agent能力边界好奇的。你想知道现在的AI Agent到底能自主到什么程度？扔给它一个真实的优化任务，看它怎么入手、怎么决策、踩什么坑。这个项目是一个绝佳的观测窗口。

快速上手

官方给的安装步骤其实很简单：

# 1. 安装uv包管理器
curl -LsSf https://astral.sh/uv/install.sh | sh

# 2. 安装依赖
uv sync

# 3. 数据准备和Tokenizer训练（一次性，大概2分钟）
uv run prepare.py

# 4. 先手动跑一次单次实验（约5分钟）
uv run train.py

如果上面这四步都能正常运行，说明你的环境OK了。

接下来就是进入autonomous模式，打开Claude Code/Codex，关掉所有权限限制，然后给它一个prompt：

Hi have a look at program.md and let's kick off a new experiment! let's do the setup first.

然后就交给它了。

注意：autonomous模式会让AI agent自主修改train.py文件，并且在你的GPU上执行训练命令。确保你理解你在做什么再开启这个模式。项目README本身也说这是experimental的。

我的感受

玩了两天autoresearch，我最大的感受是，这个项目更像一个「思想实验」而不是一个成熟产品。

它的代码量很少，文档也不复杂，但背后的思考很有意思：人类研究员的瓶颈到底在哪？是想象力不够，还是执行速度不够？

Karpathy似乎认为两者都有，而执行速度的瓶颈更致命，一个人类研究员一辈子能跑多少组超参实验？

autoresearch把这个问题摆到了台面上。

当然，它现在还很早期。program.md只有bare bones的基础指令，AI agent能探索的空间和策略完全取决于你怎么写指令。但这个框架本身是开放的，你可以加更多agent进来，可以设计更复杂的研究协议，可以跑更大规模的实验。

我觉得这个方向值得持续关注。说不定哪天真能出现「AI研究员协作网络」，那时候前沿科学的进步速度可能就不是线性的了。

GitHub链接我放这里了，有兴趣的自己去看：

github.com/karpathy/autoresearch

想让AI帮你做更多副业相关的研究和执行工作？这里有一套我整理的提示词和工具组合，覆盖了从研究到落地的全流程。39块，少喝两杯咖啡，换一个副业加速器。

→ 点击查看提示词包

好了以上就是今天的分享，如果觉得有意思，随手点个赞或者转发一下，我们下次再见。

图片