Karpathy的清醒：Vibe Coding只是热身，真正的仗在Agentic Engineering

Table of Contents

🤖 AI 摘要 Karpathy 在 Sequoia AI Ascent 访谈中提出了一个被大多数人忽略的判断：Vibe Coding 只是抬高了做软件的下限，真正决定职业天花板的是 Agentic Engineering——一种在利用 Agent 加速的同时，守住专业软件质量、安全和责任门槛的工程纪律。同时他指出，LLM 的能力不是均匀增长的，而是由实验室的数据决策和 RL 覆盖范围塑造的锯齿状分布。理解这一点，比学会用任何 AI 工具都重要。

🔑 核心要点 1、AI编程已从"辅助"进入"直接可用"阶段 2、LLM能力是锯齿状分布而非均匀增长 3、细节可外包，理解不能外包 4、很多AI应用会被模型原生能力直接吞掉

来源：宝玉对 Andrej Karpathy 在 Sequoia Capital AI Ascent 活动中与合伙人 Stephanie Zhan 对话的深度整理。原文约 1.5 万字，配 14 张信息图。

一个发明了 Vibe Coding 的人，开始谈论更严肃的事

2025 年 2 月，Karpathy 在 X 上发了一条推，用"Vibe Coding"描述了一种新的编程体验：放弃对代码的直接控制，顺着感觉让模型往前走。这个词后来被 Collins 词典选为 2025 年度词汇。

一年后的 Sequoia AI Ascent 现场，Karpathy 的重心已经不在 Vibe Coding 上了。他花了更多时间讨论 Agentic Engineering——一个更严肃、更硬核的概念。

这个转变本身就值得玩味。发明热词的人自己往前走了，说明热词覆盖的只是表层。

2025年12月：量变到质变的临界点

Karpathy 描述了一个具体的时间节点：2025 年 12 月。

之前一年，他一直在用 Cursor 等 AI 编码工具。早期模型生成的代码"有用但常要修补"，属于锦上添花。到了 12 月，他休假期间做 side project，发现最新模型生成的代码开始"直接能用"。

一开始只让模型写一点，结果不错就让它写更多。然后他发现自己已经很久没有纠正模型输出了。最后进入完全信任的状态。

这个描述对很多一线开发者来说应该有共鸣。2025 年下半年到 2026 年初，Claude、GPT、Gemini 的代码能力确实经历了一次跃迁。不是渐进式改良，而是从"偶尔能用"到"大部分时候能用"的质变。

但 Karpathy 接着说了一句更值得注意的话：很多人对 AI 的印象还停留在"类似 ChatGPT 的东西"上。真正值得重新审视的是 12 月之后的 Agentic coherent workflow——模型不再是问答模式，而是能连续规划、写代码、调试、执行、根据环境反馈修正。

换句话说，如果你还在用"一问一答"的方式使用 AI，你体验到的可能是去年甚至前年的水平。

Software 3.0：上下文就是程序

Karpathy 延续了他 2017 年提出的 Software 2.0 框架，加入了 3.0。

1.0 是传统软件：人写规则，机器执行。 2.0 是神经网络：人设计训练目标，模型学出权重。 3.0 是大语言模型：人组织上下文，模型执行任务。

他举了一个安装 OpenCL 的例子。传统做法是写 shell script 适配各种环境，脚本越来越臃肿。在 3.0 里，安装说明本身就是一段可以复制给 Agent 的文本，Agent 读取环境、执行步骤、遇到错误再调试。

这句话被很多人简化成"程序员以后只需要写提示词"，但这不是 Karpathy 的意思。他的重点是程序边界的扩大：过去的程序是代码文件，现在程序可能是一段说明、一个上下文窗口、一组工具权限、一个测试环境，再加上模型内部已经学到的大量统计结构。

最冷酷的判断：你的 App 不应该存在

整场访谈最有商业杀伤力的一个案例是 MenuGen。

Karpathy 做了一个拍菜单生成菜品图片的 App，用 Vibe Coding 实现，部署到 Vercel 上。然后他看到了 Software 3.0 版本：直接把菜单照片交给 Gemini，让它把菜品图叠加回菜单上，返回一张新图片。不需要 OCR，不需要抽取菜名，不需要调用图像生成器，不需要重新排版，不需要部署。

他的原话是：我的整个 MenuGen 都是多余的，那个 App 不应该存在。

这不是"别人做得更快"的问题。这是模型的原生输入输出直接覆盖了整个任务链，中间 App 的存在失去了意义。

把这个判断推到更广的范围：很多现在存在的 AI 应用，做的事情是把一个任务从 10 步压缩到 3 步。但如果模型本身能一步完成，那这个压缩中间步骤的 App 就会被吞掉。

这对 AI 创业者是真正的警钟。如果你的壁垒只是"把已有流程自动化"，而不是"创造模型做不到的新能力"，那你可能正在做一个 MenuGen。

锯齿状智能：别被高峰骗了

Karpathy 对 LLM 能力的描述是我见过最清醒的。

他说 LLM 的能力曲线不是平滑上升，而是有高峰和断崖。模型可以重构 10 万行代码、找到零日漏洞，却可能在"去 50 米外洗车该走路还是开车"这种常识题上犯错。

为什么会这样？他的解释非常具体：不是因为"模型还不够聪明"，而是因为能力分布取决于实验室的数据决策。从 GPT-3.5 到 GPT-4，国际象棋能力提升巨大，不是因为模型自然进化了，而是因为有人决定把大量国际象棋数据加进了预训练。

换句话说，你看到的"模型很强"的地方，可能是实验室专门投喂过的领域。你没看到的能力，可能只是因为还没有被纳入 RL 训练。

这个判断对使用者的要求很高。你不能因为模型在代码上很强，就默认它在所有工程判断上都强。也不能因为它犯了低级错误，就断定它整体没用。准确的做法是：探索它的能力边界，搞清楚哪些任务在高峰里，哪些在断崖旁边。

对 AI 应用开发者来说，这同样重要。如果你的应用场景恰好落在模型的能力高峰里，开箱即用。如果在外面，你需要自己做微调或构造 RL 环境，不要指望 LLM 一上来就会。

Vibe Coding 抬下限，Agentic Engineering 保上限

这是整场访谈的核心区分。

Vibe Coding 抬高的是所有人做软件的下限。不会写代码的人可以做小工具，会写代码的人可以更快做 side project。软件创造的门槛降低了。

Agentic Engineering 保住的是专业软件的上限。不能因为用了 AI 就引入安全漏洞，不能因为模型写得快就降低质量门槛，不能因为代码是 Agent 生成的就没人负责。

Karpathy 把 Agent 比作"有尖刺的实体"（spiky entities）：能力很强，但会犯错，有随机性，不稳定。工程师的工作不是盲目信任它们，而是把它们放进合适的流程里：生成方案、写代码、跑测试、互相检查，让系统有边界、有验证、有回滚。

他提到 10x engineer 的概念可能已经过时了。在 Agentic Engineering 里，真正熟练的人能把多个 Agent、工具、测试和上下文组织起来，产出速度会被放大得远超 10 倍。

细节可外包，理解不能外包

Karpathy 给"什么值得学"提供了一个非常具体的答案。

他已经不再记 PyTorch、NumPy、pandas 之间很多细碎的 API 差异——keepdims 还是 keepdim，dim 还是 axis，reshape、permute、transpose 分别怎么写。这些细节可以交给 Agent。

但他仍然强调，人必须理解底层概念。张量是什么，view 和 storage 的关系是什么，什么时候只是改变同一块内存的视图，什么时候会复制数据。不懂这些底层机制，就可能让模型写出低效甚至错误的代码。

他举了一个更生动的例子。Agent 实现 MenuGen 的支付逻辑时，用邮箱地址去关联 Google 账号和 Stripe 账号。代码能跑，测试可能还过，但系统设计是错的——一个人完全可能用不同邮箱登录和付款。

这类问题没有语法错误，但系统设计是错的。Agent 没有真正理解身份、支付和资金归属的风险。人必须负责规格定义：所有资金必须绑定到内部唯一用户 ID，而不是外部邮箱。

所以结论很清晰：API 名称可以忘，但概念结构不能丢。思考步骤可以让模型跑很多遍，但如果人没有理解，就无法判断哪条路线是对的，无法发现 Agent 在系统结构上的错误。

还有一个没回答的问题

Karpathy 在访谈中几乎透露了一个他认为很有价值的创业方向，但停住了。他说"我不想直接给出答案"，台下笑了。

这个停顿本身就是信号：窗口期还没关。

值得注意的是，他的公司 Eureka Labs 做的是 AI 教育，而教育恰好是一个输出可以被评估、被标准化考核的领域——这正是他说的"可验证"的领域。

💡 这对中文 AI 开发者意味着什么

Karpathy 的这些判断放在国内语境下，有几个值得延伸的思考。

国内 AI 应用层的热度非常高，但大量产品做的事情是"把已有流程自动化"——AI 客服、AI 文档处理、AI 会议纪要。按照 MenuGen 的逻辑，这些领域一旦模型原生能力覆盖，中间层的价值会迅速衰减。

真正有壁垒的方向，是 Karpathy 说的那些"以前根本不可能存在的东西"——不是把旧任务做更快，而是创造新的可能性。

另一个值得注意的点是"Agent-first 基础设施"。Karpathy 说，几乎所有工具、文档和服务都要重写，从"告诉人该怎么做"变成"告诉 Agent 该怎么做"。在国内，这个方向的基础设施还非常早期。部署、鉴权、支付、日志这些环节，绝大多数还停留在"给人点网页"的阶段。

最后是人才标准。Karpathy 说面试不应该考算法题，而应该让候选人做一个大项目，然后用 Agent 去攻击它。国内的技术面试文化距离这个标准还很远。谁先调整过来，谁就能先筛出真正的 Agentic Engineer。

参考来源：宝玉对 Andrej Karpathy 在 Sequoia Capital AI Ascent 2026 访谈的深度整理。原始视频：https://www.youtube.com/watch?v=96jN2OCOfLs