GitHub 8万星:让AI自己改训练代码、自己跑实验,醒来后告诉我结果
事情是这样的。
前两天刷GitHub,发现Karpathy又发了一个新项目,不到一个星期,冲了8万星。
项目名叫autoresearch,描述很短:AI agents running research on single-GPU nanochat training automatically。
翻译过来就是,让一个AI agent在单GPU上自动跑nanochat训练实验。
我第一反应是,这尼玛什么科幻片剧情?
然后我去读了他的README,读完觉得有点被震撼到了,不是因为技术多复杂,而是这个想法本身太有意思了。
我先说说这个项目是干嘛的,然后聊聊我的感受,以及,我们普通人能用它来做什么。
Karpathy在项目描述里写了一句话,我反复看了好几遍:
Frontier AI research used to be done by meat computers in between eating, sleeping, having other fun.
翻译成人话就是,以前前沿AI研究都是我们这些「肉做的计算机」在吃饭睡觉的间隙抽空做的。
这句话听起来像吐槽,但其实在说他看到了一个机会,如果让AI agent来跑研究实验,而不是人类呢?
他做了一件事:给AI agent一个简化但真实的LLM训练环境(基于nanochat,单GPU就能跑),然后让它自己决定改什么参数、怎么优化、跑什么实验。你睡觉的时候它在跑,你醒来的时候它告诉你结果。
每次实验预算5分钟wall-clock时间,不管你的GPU是H100还是3080,都是5分钟。评价指标是val_bpb(validation bits per byte),越低越好。
这个设定太骚了,相当于,把AI研究变成了一种可量化的、可以自动化加速的流程。
项目结构极度精简,整个repo只有三个真正重要的文件:
最后一条是关键,你不是去改Python代码来引导研究,而是改Markdown文件来给AI agent指令。
你想研究什么方向,就在program.md里写清楚,然后让Claude Code或者Codex去执行,它会自己看代码、自己改参数、自己跑实验、自己看结果变好还是变差。
这就是他说的「你不碰Python文件,你碰Markdown文件」,本质上是在构建一套「研究代理协议」,而不是具体的实验代码。
我知道你在想什么,5分钟能研究出个屁啊?
但仔细想想,这个框架的真正价值不在于5分钟能做什么,而在于它引入了一个新的研究模式:
人类定义研究空间,AI负责探索空间。
你打开program.md,写下「我想让模型在常识推理任务上表现更好」,然后AI agent开始自己摸索。它可以改模型架构、改优化器、改batch size、改学习率调度,任何你没想到的地方它都可能去试。
这不是在说AI会替代研究员,而是在说,以前一个人的研究速度受限于「肉做的计算机」能跑多少实验,现在这个瓶颈被打开了。
类比一下,AlphaGo的故事还记得吗?AlphaGo Master赢了李世石,AlphaGo Zero用3天自我对弈超过了Master,再3天超过了最初的AlphaGo。没有人类棋谱,完全靠自我对弈迭代进化。
autoresearch在LLM训练领域做的是类似的事情,让AI在「训练实验」这个空间里自我进化。
说实话,这个项目目前不是那种「装上就能用」的工具。
你至少需要:
坦率的讲,这个门槛比大多数AI工具高。
但如果你满足这些条件,我觉得有几种人特别值得试试:
第一种,想深入理解LLM训练的人。与其看教程读论文,不如让AI agent跑给你看。你改一个参数,AI会告诉你结果,你就能直观理解每个参数的作用。这比任何教科书都生动。
第二种,在垂直领域做定制化小模型的。比如你想训一个专门处理你所在行业术语的模型,autoresearch提供了一套可以自动化探索最优配置的基础框架。
第三种,对AI Agent能力边界好奇的。你想知道现在的AI Agent到底能自主到什么程度?扔给它一个真实的优化任务,看它怎么入手、怎么决策、踩什么坑。这个项目是一个绝佳的观测窗口。
官方给的安装步骤其实很简单:
# 1. 安装uv包管理器
curl -LsSf https://astral.sh/uv/install.sh | sh
# 2. 安装依赖
uv sync
# 3. 数据准备和Tokenizer训练(一次性,大概2分钟)
uv run prepare.py
# 4. 先手动跑一次单次实验(约5分钟)
uv run train.py
如果上面这四步都能正常运行,说明你的环境OK了。
接下来就是进入autonomous模式,打开Claude Code/Codex,关掉所有权限限制,然后给它一个prompt:
Hi have a look at program.md and let's kick off a new experiment! let's do the setup first.
然后就交给它了。
玩了两天autoresearch,我最大的感受是,这个项目更像一个「思想实验」而不是一个成熟产品。
它的代码量很少,文档也不复杂,但背后的思考很有意思:人类研究员的瓶颈到底在哪?是想象力不够,还是执行速度不够?
Karpathy似乎认为两者都有,而执行速度的瓶颈更致命,一个人类研究员一辈子能跑多少组超参实验?
autoresearch把这个问题摆到了台面上。
当然,它现在还很早期。program.md只有bare bones的基础指令,AI agent能探索的空间和策略完全取决于你怎么写指令。但这个框架本身是开放的,你可以加更多agent进来,可以设计更复杂的研究协议,可以跑更大规模的实验。
我觉得这个方向值得持续关注。说不定哪天真能出现「AI研究员协作网络」,那时候前沿科学的进步速度可能就不是线性的了。
GitHub链接我放这里了,有兴趣的自己去看:
github.com/karpathy/autoresearch
想让AI帮你做更多副业相关的研究和执行工作?这里有一套我整理的提示词和工具组合,覆盖了从研究到落地的全流程。39块,少喝两杯咖啡,换一个副业加速器。
好了以上就是今天的分享,如果觉得有意思,随手点个赞或者转发一下,我们下次再见。
图片
相关阅读:
《我用caveman把Claude Code的token消耗砍了65%,顺手测了一下值不值》
《AI副业工具箱:每个普通人能上手的AI赚钱方向》
《MCP正在成为AI Agent的"USB接口":普通人的机会在哪?》