OpenClaw + Agent Swarm：一人开发团队的完整搭建指南

Table of Contents

📌 翻译说明：本文翻译自 Elvis 的推文 OpenClaw + Codex/ClaudeCode Agent Swarm: The One-Person Dev Team，作者分享了如何用 OpenClaw 构建一个 AI agent 编排系统，实现真正的一人开发团队。

我现在不再直接使用 Codex 或 Claude Code 了。

我用 OpenClaw 作为编排层。我的 orchestrator，Zoe，负责生成 agents、编写 prompts、为每个任务选择合适的模型、监控进度，并在 PR 准备好合并时通过 Telegram 通知我。

过去 4 周的成果：

一天 94 次提交。这是我最高产的一天——当天我还有 3 个客户电话，一次都没打开编辑器。平均每天约 50 次提交。
30 分钟内 7 个 PR。从想法到生产部署极快，因为编码和验证基本都自动化了。
Commits → MRR：我用这个系统构建一个真实的 B2B SaaS——结合创始人主导的销售，大多数功能请求当天就能交付。速度能把潜在客户转化为付费用户。

before Jan: CC/codex only | after Jan: Openclaw orchestrates CC/codex

我的 git 历史看起来就像我刚雇佣了一个开发团队。实际上只是我——从直接管理 Claude Code，变成了管理一个 OpenClaw agent，而这个 agent 管理着一群其他的 Claude Code 和 Codex agents。

成功率：系统几乎能一次性完成所有中小型任务，无需任何干预。

成本：Claude 约 $100/月，Codex 约 $90/月，但你可以从 $20 开始。

为什么这个方案比直接用 Codex 或 Claude Code 更好

Codex 和 Claude Code 对你的业务几乎没有任何上下文。

它们只看到代码。它们看不到你业务的全貌。

OpenClaw 改变了这个等式。它作为你与所有 agents 之间的编排层——它在我的 Obsidian vault 中保存了所有业务上下文（客户数据、会议笔记、过去的决策、什么有效、什么失败），并将历史上下文转化为每个编码 agent 的精准 prompts。Agents 专注于代码。Orchestrator 保持在高层策略层面。

高层系统架构

System Architecture

上周 Stripe 写了他们的后台 agent 系统 “Minions”——由中央编排层支持的并行编码 agents。我不小心构建了同样的东西，但它运行在我的 Mac mini 上。

在我告诉你如何设置之前，你应该知道为什么你需要一个 agent orchestrator。

为什么一个 AI 无法同时做两件事

上下文窗口是零和博弈。你必须选择放什么进去。

填满代码 → 没有空间放业务上下文
填满客户历史 → 没有空间放代码库

这就是为什么两层系统有效：每个 AI 都加载了它精确需要的内容。

OpenClaw vs Codex Context

通过上下文实现专业化，而不是通过不同的模型。

完整的 8 步工作流

让我用一个上周的真实例子来说明。

Step 1: 客户请求 → 与 Zoe 确定范围

我与一个代理商客户开了个电话会议。他们想复用团队中已经设置好的配置。

会议结束后，我与 Zoe 讨论了这个请求。因为我所有的会议笔记都会自动同步到我的 Obsidian vault，我不需要解释任何背景。我们一起确定了功能范围——设计了一个模板系统，让他们可以保存和编辑现有配置。

然后 Zoe 做了三件事：

充值积分——立即解除客户限制（她有 admin API 访问权限）
从生产数据库拉取客户配置——她有只读生产数据库访问权限（我的 codex agents 永远不会有这个），用于检索他们的现有设置，这些会包含在 prompt 中
生成一个 Codex agent——带有包含所有上下文的详细 prompt

Step 2: 生成 Agent

每个 agent 都有自己的 worktree（隔离分支）和 tmux session：

Agent 在 tmux session 中运行，通过脚本记录完整的终端日志。

我们如何启动 agents：

我以前用 codex exec 或 claude -p，但最近切换到了 tmux：

tmux 好得多，因为中途重定向很强大。Agent 走错方向了？别杀掉它：

任务被跟踪在 .clawdbot/active-tasks.json 中：

完成时，它会更新 PR 号和检查状态。（更多内容在 step 5）

Step 3: 循环监控

一个 cron job 每 10 分钟运行一次来照看所有 agents。这基本上是一个改进版的 Ralph Loop，后面会详细说。

但它不直接轮询 agents——那样太昂贵了。相反，它运行一个脚本，读取 JSON 注册表并检查：

这个脚本是 100% 确定性的，极其节省 token：

检查 tmux sessions 是否存活
检查跟踪分支上是否有开放的 PRs
通过 gh cli 检查 CI 状态
如果 CI 失败或有关键审查反馈，自动重启失败的 agents（最多 3 次尝试）
只在需要人工关注时发出警报

我不盯着终端。系统会告诉我什么时候该看了。

Step 4: Agent 创建 PR

Agent 通过 gh pr create --fill 提交、推送并打开 PR。此时我不会收到通知——仅有一个 PR 还不算完成。

完成定义（非常重要，你的 agent 需要知道这个）：

PR 已创建
分支已同步到 main（无合并冲突）
CI 通过（lint、types、unit tests、E2E）
Codex review 通过
Claude Code review 通过
Gemini review 通过
包含截图（如果是 UI 变更）

Step 5: 自动化代码审查

每个 PR 都会被三个 AI 模型审查。它们会发现不同的问题：

Codex Reviewer——在边缘情况方面表现出色。做最彻底的审查。能发现逻辑错误、缺失的错误处理、竞态条件。误报率很低。
Gemini Code Assist Reviewer——免费且极其有用。能发现其他 agents 遗漏的安全问题、可扩展性问题。并建议具体的修复方案。安装它是理所当然的。
Claude Code Reviewer——基本没用——倾向于过度谨慎。很多"考虑添加…“的建议通常是过度工程。除非标记为关键，否则我跳过所有内容。它很少自己发现关键问题，但会验证其他审查者标记的内容。

所有三个都会直接在 PR 上发布评论。

Step 6: 自动化测试

我们的 CI 流水线运行大量自动化测试：

Lint 和 TypeScript 检查
单元测试
E2E 测试
Playwright 测试（针对预览环境，与生产环境相同）

我上周添加了一条新规则：如果 PR 更改了任何 UI，必须在 PR 描述中包含截图。否则 CI 失败。这大大缩短了审查时间——我可以准确看到什么变了，而不用点击预览。

Step 7: 人工审查

现在我收到 Telegram 通知：“PR #341 ready for review.”

到这个时候：

CI 通过
三个 AI reviewers 批准了代码
截图显示了 UI 变化
所有边缘情况都记录在审查评论中

我的审查需要 5-10 分钟。很多 PR 我不看代码就直接合并——截图就能告诉我需要知道的一切。

Step 8: 合并

PR 合并。一个每日 cron job 清理孤立的 worktrees 和任务注册 JSON。

Ralph Loop V2

这本质上是 Ralph Loop，但更好。

Ralph Loop 从记忆中拉取上下文，生成输出，评估结果，保存学习。但大多数实现每个循环运行相同的 prompt。提炼的学习改进未来的检索，但 prompt 本身保持静态。

我们的系统不同。 当 agent 失败时，Zoe 不会只用相同的 prompt 重启它。她会用完整的业务上下文查看失败，并找出如何解除阻塞：

Agent 上下文用完了？“只关注这三个文件。”
Agent 走错方向了？“停。客户想要的是 X，不是 Y。这是他们在会议上说的。”
Agent 需要澄清？“这是客户的邮件和他们公司的业务。”

Zoe 照看 agents 直到完成。她有 agents 没有的上下文——客户历史、会议笔记、我们之前尝试过什么、为什么失败。她用这些上下文在每次重试时写更好的 prompts。

但她也不会等我分配任务。她会主动找活干：

早上： 扫描 Sentry → 发现 4 个新错误 → 生成 4 个 agents 调查和修复
会议后： 扫描会议笔记 → 标记客户提到的 3 个功能请求 → 生成 3 个 Codex agents
晚上： 扫描 git log → 生成 Claude Code 更新 changelog 和客户文档

我在客户电话后去散步。回来看到 Telegram：“7 个 PR 准备审查。3 个功能，4 个 bug 修复。”

当 agents 成功时，模式会被记录。“这种 prompt 结构对计费功能有效。““Codex 需要预先提供类型定义。““总是包含测试文件路径。”

奖励信号是：CI 通过、所有三个代码审查通过、人工合并。任何失败都会触发循环。随着时间推移，Zoe 写出更好的 prompts，因为她记得什么被发布了。

选择合适的 Agent

并非所有编码 agents 都是平等的。快速参考：

Codex 是我的主力。后端逻辑、复杂 bugs、多文件重构，任何需要跨代码库推理的任务。它较慢但彻底。我用它处理 90% 的任务。
Claude Code 更快，更擅长前端工作。它的权限问题也更少，所以很适合 git 操作。（我以前更多用它处理日常工作，但 Codex 5.3 现在简单更好更快）
Gemini 有不同的超能力——设计感。对于漂亮的 UI，我会先让 Gemini 生成一个 HTML/CSS 规范，然后交给 Claude Code 在我们的组件系统中实现。Gemini 设计，Claude 构建。

Zoe 为每个任务选择合适的 agent 并在它们之间路由输出。计费系统 bug 交给 Codex。按钮样式修复交给 Claude Code。新仪表板设计从 Gemini 开始。

如何设置

把整篇文章复制到 OpenClaw 并告诉它：“为我的代码库实现这个 agent swarm 设置。”

它会读取架构、创建脚本、设置目录结构、配置 cron 监控。10 分钟搞定。

没有课程卖给你。

没人预料到的瓶颈

我现在碰到的天花板是：RAM。

每个 agent 需要自己的 worktree。每个 worktree 需要自己的 node_modules。每个 agent 运行构建、类型检查、测试。五个 agents 同时运行意味着五个并行 TypeScript 编译器、五个测试运行器、五组依赖加载到内存中。

我的 16GB Mac Mini 在 4-5 个 agents 时就会触顶——开始交换内存——而且需要幸运的是它们不会同时尝试构建。

所以我买了一台 128GB RAM 的 Mac Studio M4 max（$3,500）来驱动这个系统。它三月底到货，我会分享是否值得。

下一步：一人百万美元公司

从 2026 年开始，我们会看到大量一人百万美元公司。对于那些理解如何构建递归自我改进 agents 的人来说，杠杆是巨大的。

它看起来是这样的： 一个 AI orchestrator 作为你自己的延伸（就像 Zoe 对我一样），将工作委托给处理不同业务功能的专门 agents。工程。客户支持。运营。营销。每个 agent 专注于它擅长的事情。你保持极度专注和完全控制。

下一代创业者不会雇佣 10 人的团队来做一个人用正确系统能做的事。他们会这样构建——保持小规模、快速移动、每天发布。

现在有太多 AI 生成的垃圾了。太多围绕 agents 和"任务控制"的炒作，却没有构建任何真正有用的东西。花哨的演示，没有实际收益。

我正在尝试做相反的事情：少炒作，更多关于构建真实业务的文档。真实客户、真实收入、真实发布到生产的提交，以及真实的损失。

我在构建什么？Agentic PR——一个一人公司，挑战企业 PR 老牌公司。帮助初创公司获得媒体报道的 agents，无需 $10k/月的 retainers。

如果你想看看我能走多远，欢迎关注。

💡 译者注：这篇文章展示了 AI agent 编排的实际应用场景。OpenClaw 作为编排层的思路很有价值——它不是替代 Codex/Claude Code，而是让它们更好地协同工作。对于独立开发者来说，这种"一人团队"的模式值得借鉴。