Karpathy的清醒:Vibe Coding只是热身,真正的仗在Agentic Engineering

Table of Contents

🤖 AI 摘要 Karpathy 在 Sequoia AI Ascent 访谈中提出了一个被大多数人忽略的判断:Vibe Coding 只是抬高了做软件的下限,真正决定职业天花板的是 Agentic Engineering——一种在利用 Agent 加速的同时,守住专业软件质量、安全和责任门槛的工程纪律。同时他指出,LLM 的能力不是均匀增长的,而是由实验室的数据决策和 RL 覆盖范围塑造的锯齿状分布。理解这一点,比学会用任何 AI 工具都重要。

🔑 核心要点 1、AI编程已从"辅助"进入"直接可用"阶段 2、LLM能力是锯齿状分布而非均匀增长 3、细节可外包,理解不能外包 4、很多AI应用会被模型原生能力直接吞掉


来源:宝玉对 Andrej Karpathy 在 Sequoia Capital AI Ascent 活动中与合伙人 Stephanie Zhan 对话的深度整理。原文约 1.5 万字,配 14 张信息图。

一个发明了 Vibe Coding 的人,开始谈论更严肃的事

2025 年 2 月,Karpathy 在 X 上发了一条推,用"Vibe Coding"描述了一种新的编程体验:放弃对代码的直接控制,顺着感觉让模型往前走。这个词后来被 Collins 词典选为 2025 年度词汇。

一年后的 Sequoia AI Ascent 现场,Karpathy 的重心已经不在 Vibe Coding 上了。他花了更多时间讨论 Agentic Engineering——一个更严肃、更硬核的概念。

这个转变本身就值得玩味。发明热词的人自己往前走了,说明热词覆盖的只是表层。

2025年12月:量变到质变的临界点

Karpathy 描述了一个具体的时间节点:2025 年 12 月。

之前一年,他一直在用 Cursor 等 AI 编码工具。早期模型生成的代码"有用但常要修补",属于锦上添花。到了 12 月,他休假期间做 side project,发现最新模型生成的代码开始"直接能用"。

一开始只让模型写一点,结果不错就让它写更多。然后他发现自己已经很久没有纠正模型输出了。最后进入完全信任的状态。

这个描述对很多一线开发者来说应该有共鸣。2025 年下半年到 2026 年初,Claude、GPT、Gemini 的代码能力确实经历了一次跃迁。不是渐进式改良,而是从"偶尔能用"到"大部分时候能用"的质变。

但 Karpathy 接着说了一句更值得注意的话:很多人对 AI 的印象还停留在"类似 ChatGPT 的东西"上。真正值得重新审视的是 12 月之后的 Agentic coherent workflow——模型不再是问答模式,而是能连续规划、写代码、调试、执行、根据环境反馈修正。

换句话说,如果你还在用"一问一答"的方式使用 AI,你体验到的可能是去年甚至前年的水平。

Software 3.0:上下文就是程序

Karpathy 延续了他 2017 年提出的 Software 2.0 框架,加入了 3.0。

1.0 是传统软件:人写规则,机器执行。 2.0 是神经网络:人设计训练目标,模型学出权重。 3.0 是大语言模型:人组织上下文,模型执行任务。

他举了一个安装 OpenCL 的例子。传统做法是写 shell script 适配各种环境,脚本越来越臃肿。在 3.0 里,安装说明本身就是一段可以复制给 Agent 的文本,Agent 读取环境、执行步骤、遇到错误再调试。

这句话被很多人简化成"程序员以后只需要写提示词",但这不是 Karpathy 的意思。他的重点是程序边界的扩大:过去的程序是代码文件,现在程序可能是一段说明、一个上下文窗口、一组工具权限、一个测试环境,再加上模型内部已经学到的大量统计结构。

最冷酷的判断:你的 App 不应该存在

整场访谈最有商业杀伤力的一个案例是 MenuGen。

Karpathy 做了一个拍菜单生成菜品图片的 App,用 Vibe Coding 实现,部署到 Vercel 上。然后他看到了 Software 3.0 版本:直接把菜单照片交给 Gemini,让它把菜品图叠加回菜单上,返回一张新图片。不需要 OCR,不需要抽取菜名,不需要调用图像生成器,不需要重新排版,不需要部署。

他的原话是:我的整个 MenuGen 都是多余的,那个 App 不应该存在。

这不是"别人做得更快"的问题。这是模型的原生输入输出直接覆盖了整个任务链,中间 App 的存在失去了意义。

把这个判断推到更广的范围:很多现在存在的 AI 应用,做的事情是把一个任务从 10 步压缩到 3 步。但如果模型本身能一步完成,那这个压缩中间步骤的 App 就会被吞掉。

这对 AI 创业者是真正的警钟。如果你的壁垒只是"把已有流程自动化",而不是"创造模型做不到的新能力",那你可能正在做一个 MenuGen。

锯齿状智能:别被高峰骗了

Karpathy 对 LLM 能力的描述是我见过最清醒的。

他说 LLM 的能力曲线不是平滑上升,而是有高峰和断崖。模型可以重构 10 万行代码、找到零日漏洞,却可能在"去 50 米外洗车该走路还是开车"这种常识题上犯错。

为什么会这样?他的解释非常具体:不是因为"模型还不够聪明",而是因为能力分布取决于实验室的数据决策。从 GPT-3.5 到 GPT-4,国际象棋能力提升巨大,不是因为模型自然进化了,而是因为有人决定把大量国际象棋数据加进了预训练。

换句话说,你看到的"模型很强"的地方,可能是实验室专门投喂过的领域。你没看到的能力,可能只是因为还没有被纳入 RL 训练。

这个判断对使用者的要求很高。你不能因为模型在代码上很强,就默认它在所有工程判断上都强。也不能因为它犯了低级错误,就断定它整体没用。准确的做法是:探索它的能力边界,搞清楚哪些任务在高峰里,哪些在断崖旁边。

对 AI 应用开发者来说,这同样重要。如果你的应用场景恰好落在模型的能力高峰里,开箱即用。如果在外面,你需要自己做微调或构造 RL 环境,不要指望 LLM 一上来就会。

Vibe Coding 抬下限,Agentic Engineering 保上限

这是整场访谈的核心区分。

Vibe Coding 抬高的是所有人做软件的下限。不会写代码的人可以做小工具,会写代码的人可以更快做 side project。软件创造的门槛降低了。

Agentic Engineering 保住的是专业软件的上限。不能因为用了 AI 就引入安全漏洞,不能因为模型写得快就降低质量门槛,不能因为代码是 Agent 生成的就没人负责。

Karpathy 把 Agent 比作"有尖刺的实体"(spiky entities):能力很强,但会犯错,有随机性,不稳定。工程师的工作不是盲目信任它们,而是把它们放进合适的流程里:生成方案、写代码、跑测试、互相检查,让系统有边界、有验证、有回滚。

他提到 10x engineer 的概念可能已经过时了。在 Agentic Engineering 里,真正熟练的人能把多个 Agent、工具、测试和上下文组织起来,产出速度会被放大得远超 10 倍。

细节可外包,理解不能外包

Karpathy 给"什么值得学"提供了一个非常具体的答案。

他已经不再记 PyTorch、NumPy、pandas 之间很多细碎的 API 差异——keepdims 还是 keepdim,dim 还是 axis,reshape、permute、transpose 分别怎么写。这些细节可以交给 Agent。

但他仍然强调,人必须理解底层概念。张量是什么,view 和 storage 的关系是什么,什么时候只是改变同一块内存的视图,什么时候会复制数据。不懂这些底层机制,就可能让模型写出低效甚至错误的代码。

他举了一个更生动的例子。Agent 实现 MenuGen 的支付逻辑时,用邮箱地址去关联 Google 账号和 Stripe 账号。代码能跑,测试可能还过,但系统设计是错的——一个人完全可能用不同邮箱登录和付款。

这类问题没有语法错误,但系统设计是错的。Agent 没有真正理解身份、支付和资金归属的风险。人必须负责规格定义:所有资金必须绑定到内部唯一用户 ID,而不是外部邮箱。

所以结论很清晰:API 名称可以忘,但概念结构不能丢。思考步骤可以让模型跑很多遍,但如果人没有理解,就无法判断哪条路线是对的,无法发现 Agent 在系统结构上的错误。

还有一个没回答的问题

Karpathy 在访谈中几乎透露了一个他认为很有价值的创业方向,但停住了。他说"我不想直接给出答案",台下笑了。

这个停顿本身就是信号:窗口期还没关。

值得注意的是,他的公司 Eureka Labs 做的是 AI 教育,而教育恰好是一个输出可以被评估、被标准化考核的领域——这正是他说的"可验证"的领域。

💡 这对中文 AI 开发者意味着什么

Karpathy 的这些判断放在国内语境下,有几个值得延伸的思考。

国内 AI 应用层的热度非常高,但大量产品做的事情是"把已有流程自动化"——AI 客服、AI 文档处理、AI 会议纪要。按照 MenuGen 的逻辑,这些领域一旦模型原生能力覆盖,中间层的价值会迅速衰减。

真正有壁垒的方向,是 Karpathy 说的那些"以前根本不可能存在的东西"——不是把旧任务做更快,而是创造新的可能性。

另一个值得注意的点是"Agent-first 基础设施"。Karpathy 说,几乎所有工具、文档和服务都要重写,从"告诉人该怎么做"变成"告诉 Agent 该怎么做"。在国内,这个方向的基础设施还非常早期。部署、鉴权、支付、日志这些环节,绝大多数还停留在"给人点网页"的阶段。

最后是人才标准。Karpathy 说面试不应该考算法题,而应该让候选人做一个大项目,然后用 Agent 去攻击它。国内的技术面试文化距离这个标准还很远。谁先调整过来,谁就能先筛出真正的 Agentic Engineer。


参考来源:宝玉对 Andrej Karpathy 在 Sequoia Capital AI Ascent 2026 访谈的深度整理。原始视频:https://www.youtube.com/watch?v=96jN2OCOfLs