第 1 章　导论：什么是 Harness Engineering，为什么是现在¶

本章几乎不碰代码。我们先看几个"一夜爆火"的东西，再回答一个问题：它们到底火的是什么？答案会引出这本书的主角——harness。

引子：一只🦞用 72 小时干了什么¶

先讲个画面。

2025 年底，如果你是个写代码的人，大概率经历过这样一幕：你打开某个大模型的对话框，让它"帮我把这个项目跑起来、修掉这个 bug"。它给你一大段看起来很对的代码，你复制、粘贴、运行——报错。你把报错贴回去，它道歉，再给一段，又报错。来回十几轮，你最后叹口气，自己动手改了。模型很聪明，可它就是没法真的把活干完。

然后，2026 年初的一个周末，一个图标是龙虾的开源项目冲上了 GitHub 趋势榜第一，名字叫 OpenClaw。72 小时，6 万颗星。到 4 月，它累计约 34.7 万颗星，成为 GitHub 历史上星标最高的仓库——比你叫得出名字的大多数框架、编程语言、操作系统都高。有人直接管它叫"我们离 JARVIS 最近的一次"。

更有意思的是后面这个数字：有 AI 服务商报告，2026 年第一季度，他们 三分之一 的新企业客户，是从"托管的 agent 服务"迁回来、改用自托管的 OpenClaw 的。也就是说，它不只是极客的玩具，已经被 Fortune 500 们当成正经基础设施在用。

OpenClaw 不是一个模型。它是一个"个人 AI 助手"：跑在你自己的机器上，记得住跨对话的上下文，能真的在你电脑上干活——读写文件、跑 shell、做网页自动化。你在 WhatsApp、Telegram、Discord、甚至 iMessage 里发一句话，它就去执行。它内置了 100 多个预置技能（AgentSkills），覆盖命令行、文件系统、网页操作。而最关键的一点是：它自己不带模型——你自带 Claude、DeepSeek 或 GPT 的 API key，想接哪个接哪个。

几乎同一时间，另一个项目也在爆发。AI 研究机构 Nous Research 在 2026 年 2 月 25 日发布了 Hermes Agent，口号是"会跟你一起成长的 agent"。90 天，14 万颗星，将近 1000 名贡献者。Hermes 的卖点是一个"学习闭环"：它能从经验里长出新技能、在使用中改进它们、提醒自己把知识持久化下来、检索自己过去的对话，跨会话越来越懂"你是谁"。而它的作者撂下一句很有意思的话，大意是：开源模型也能打，只要给它配上对的 harness。

再算上更早就火、已经被无数工程师日常使用的 Claude Code，OpenAI 自家的 Codex，以及一个几百行代码、四个工具就能跑起来的极简编码 agent "pi"……你会发现这不是孤例，而是一股潮：2026 年，最受关注的一批 AI 产品，主角都不是新模型，而是"包在模型外面"的东西。

那么问题来了：这些东西，到底火的是什么？

一、三个"一夜爆火"的项目，一个共同的反常识¶

我们把镜头拉近一点，看清楚它们各自是什么。

OpenClaw，本质是一个"会动手的助手"。传统聊天机器人是"对话接口"，你问它答；OpenClaw 是"行动接口"，你说一句"把这个文件夹里所有发票汇总成一张表，发到我邮箱"，它会去列目录、读文件、写表格、调邮件——一套动作真的发生在你的机器上。它把 AI 从"能说"变成了"能做"。它之所以能这么火，除了"会动手"，还有两个工程上的原因：隐私（全程在你自己机器/服务器上，模型 key 你自己拿着，数据不出门）和可扩展（100+ 技能可插拔，社区还在不停加）。

Hermes Agent，本质是一个"会成长的助手"。它比"会动手"多走了一步：把每一次任务的经验沉淀下来。用 Nous Research 自己的话说，它把会话当成基础设施（session as infrastructure）、把工具的注册和工具的暴露分开（你注册了一百个工具，不等于每轮都把一百个塞给模型看）、还做了基于谱系的上下文压缩。这些词你现在不用懂，记住一件事就行：Hermes 火，是因为它在"模型外面那层"做得足够好，好到能让一个开源模型追上商业产品。它的产品主张写得明明白白：有了开源工具 + 任意一个大模型 API，个人就该能部署出一个不输商业方案的 agent。

Claude Code / Codex / pi，本质是"会写代码的助手"，也就是 coding agent。它们是这股潮里离工程师最近、也最适合用来"解剖"的一类——因为代码的对错可以被测试、被运行、被验证，反馈最硬。其中 pi 尤其值得记一笔：它由 Mario Zechner 写，只有四个工具（读、写、改、跑命令）、一个最朴素的循环、约 1000 token 的系统提示，却能干不少活。它存在的意义，是告诉你"一个能用的 agent，内核可以有多简单"——这条线索我们第 3 章会专门用到。

把它们摆在一起，那个反常识的共同点就藏不住了：

OpenClaw 自己不带模型，你自带 key；Hermes 明说开源模型配上对的 harness 就能打；Claude Code 和 Codex 背后是 Claude 和 GPT——可这两个模型，调 API 谁都能调。

同一批模型，人人都能用。 真正把这些产品和"你随手写的一个调大模型的脚本"拉开差距的，从来不是模型本身。

为什么偏偏是 2026 集中爆发？¶

你可能会问：大模型不是早就有了吗，为什么"模型外面那层"突然在 2026 年集中引爆？

两个原因叠在一起。第一，模型终于强到"可以放手"了。早一两代的模型，让它连续自主跑几十步就会跑飞；而到了 2026 年这一代（Anthropic 自己提到，Opus 4.5 到 4.6 之间，模型甚至能自己摆脱"上下文焦虑"、连续工作两个多小时），"长时间自主干活"第一次变得现实。模型能跑得久，外面那层"怎么管它跑"的工程价值，立刻就凸显出来了。第二，模型也终于强到"能自己造外面那层"了——后面你会看到，OpenAI 的 Codex 连自己的脚手架、CI、文档都是自己写的。

于是 2026 成了一个奇妙的临界点：模型既值得被精心"套上挽具"，又有能力帮你把挽具造出来。这层东西的名字，叫 harness。

模型 vs 模型 + Harness 的外骨骼对比图

图 1：同一个模型，差别全在外面这层 harness。

二、爆的不是模型，是模型外面那层¶

"harness"直译是"挽具"——套在马身上、把马力转化成可控牵引的那套装备。这个比喻很贴：模型是马，harness 是挽具。 马再壮，没有挽具就是信马由缰——使不上劲、拉不动车，还可能尥蹶子踢翻你；而一匹普通的马，配上好挽具、好车架、好缰绳，蛮力就变成可用功，能稳稳把一车货拉到目的地。

放到 agent 上，模型外面那层"挽具"至少包括：它能调用哪些工具、被关在什么沙箱里、每轮喂给它什么上下文、跑飞了靠什么反馈纠回来、跨天的任务怎么接力、出了问题你怎么看见。本书后面每一章，拆的就是这套挽具的一个部件。

这不是文学比喻，是有硬数据撑着的。我们看两组。

第一组：只换 harness，不换模型。 LangChain 做过一个实验：模型完全不动，只改外面那层 harness，就能把一个 agent 的基准表现从中游拉到第一梯队。换句话说，你手上那个"表现一般"的 agent，问题很可能不在模型，而在你给它的挽具。

第二组：同一个模型，两套 harness，结果天壤之别。 Anthropic 做过一个很直观的对比。同样一句话——"做一个 2D 复古游戏制作器"——交给同一个模型（Opus 4.5）：

裸跑（solo，没有精心设计的 harness）：20 分钟，花了 9 美元，产出一个"看起来像那么回事"的应用。但点进去就露馅：布局浪费、流程别扭，最致命的是游戏根本玩不了——实体能画出来，却对输入毫无反应，底层接线断了，界面上还看不出哪里断的。
套上完整 harness（一个 planner + generator + evaluator 的多代理结构，能自己规划、自己写、再自己当 QA 把着关）：6 小时，花了 200 美元，产出一个有 16 个功能、十个迭代、带精灵编辑器、行为系统、音效、甚至内置 AI 辅助生成的游戏制作器——而且真的能玩。

后者贵了 20 多倍，但这恰恰说明问题：模型一样，差距全在外面那层。 那 20 倍成本买到的，不是更强的模型，而是"会规划、会自查、不糊弄"的一套工程结构。

如果你是工程师，这件事的含义很直接：

模型是买来的，是商品；harness 是你自己造的，是杠杆。

当所有人都能用上同样的 Opus、GPT、DeepSeek，模型这一项就从"竞争优势"变成了"入场券"。真正决定你的 agent 好不好用、能不能上生产、敢不敢放手的，是你给它搭的那套挽具。这也是为什么，"做 harness"正在从一项零散技巧，变成一个值得专门投入的工程方向——下一节我们就说说，它什么时候有了正式的名字。

三爆款 GitHub 星标暴涨图

图 2：2026 年爆火的不是新模型，而是模型外面的行动系统。

三、给它一个名字：Harness，以及它从哪来¶

先把定义钉死¶

本书说的 harness，指模型之外、为了让 agent 可靠工作而存在的全部基础设施。展开来，它至少包含这么几层（也正好是本书的骨架）：

工具（Tools）：它能调用什么——读文件、跑命令、改代码、查网络、调外部服务；
约束与安全（Guardrails）：它被关在什么边界里——哪些目录能写、什么命令要先问你、网络能不能出；
上下文（Context）：每一轮喂给模型什么——系统提示、仓库知识、历史对话、当前环境事实；
反馈（Feedback）：它怎么知道自己做对没有——测试、评审、观测信号；
长程状态（Long-running）：跨上下文窗口、跨会话怎么接力一个大任务而不失忆；
运行时（Runtime）：这一切被什么驱动、怎么被你的 IDE / 命令行 / 其他程序调用。

注意：这里面没有"模型"。模型是这套系统里唯一你不掌控、直接买来用的部件。harness engineering 关心的，全是模型之外的东西。

术语小考：harness 这个词其实是工程师的老朋友。 在 AI 之前，"harness"在软件里早有一个意思——测试框架（test harness）：包在被测代码外面、负责喂输入、跑用例、收结果的那套脚手架。你看，"包在外面、负责喂数据和收结果、让里面那块东西能被可靠地驱动和检验"——这个内核，从 test harness 到 agent harness，一脉相承。所以工程师对这个词其实天然有亲切感。

这个词从哪来：一个还在抢的功劳¶

有意思的是，"harness"这个词从概念到成为一门正经学科，时间线比很多人以为的要早，也更乱——早到这个概念在 2025 年底就被严肃使用，乱到"harness engineering 这个名字谁先叫响"至今还在争：

2025 年 11 月 26 日，Anthropic 在工程博客发出 《Effective harnesses for long-running agents》，系统讲了怎么用一套 harness 让 agent 跨多个上下文窗口长时间干活——这是 "harness" 作为 agent 工程术语的一次重要早期亮相（几个月后又有续作《Harness design for long-running application development》，2026 年 3 月）。
2026 年 2 月初，Mitchell Hashimoto（HashiCorp、Terraform 作者）把它正式叫成一门手艺——"engineering the harness"：每当 agent 犯错，就把一个永久性的修复"焊进"它的环境。他给出那个流传最广的公式：Agent = Model + Harness。
也有人把"讲得最干净"的功劳记在 LangChain 的 Vivek Trivedy 名下——他那篇 《The Anatomy of an Agent Harness》 把"agent = 模型 + harness、每个部件为何存在"拆得最清楚。
2026 年 2 月，OpenAI 工程团队发《Harness engineering: leveraging Codex in an agent-first world》，配上"百万行代码、几乎 0 行人手写"的猛料，几乎一夜之间把这个词推爆。
之后 Thoughtworks 的 Birgitta Böckeler（发表在 martinfowler.com）又用一套"导引 / 传感器（guides / sensors）+ 对抗熵的'垃圾回收'"框架把它系统化，成了很多人引用的参照。

到现在，业界甚至有"5 家公司，5 种定义"的调侃——大家都同意 harness 重要，但对它到底包含哪些部件、边界画在哪，各执一词。

Harness Engineering 术语溯源时间线

图 3：Harness Engineering 作为术语被正式讨论，仍处在多方定义并行的早期阶段。

为什么是"harness"，而不是"framework"¶

你可能会想：这不就是个 agent 框架（framework）吗，换个词而已？

差别恰恰在这。社区里逐渐形成一个共识：你的 agent 需要的是 harness，不是 framework。 framework 通常是"你把代码填进它的空里、按它的规矩来"；而 harness 更像是"围绕模型搭的一整套可控环境与反馈回路"——它强调的是状态、重试、追踪、并发、约束、验证这些"让不确定的东西变可靠"的基础设施，而不是又一套 API 约定。一个细微但重要的区别是：framework 想让你少写代码，harness 想让你的 agent 可靠地多干活。这本书自始至终站在后者这一边。

这件事你别嫌乱，反而该高兴：一个连定义都还在抢、连和"框架"的边界都还在划的领域，恰恰是最值得早入场的领域。 等它有了教科书、有了"标准答案"，红利也就薄了。而你手上正好有一个最好的学习材料——一个把这些概念全都落成了真实代码的开源项目。我们第五节就说它。

四、热度不是错觉：岗位、大厂、社区¶

光看 GitHub 星标，你可能会想：是不是又一波炒作，过两个月就凉？我们看三个更硬、更难造假的信号：有没有人为它付钱招人、顶级团队是否真在用它、社区有没有开始沉淀。

信号一：招聘——它已经是一个独立工种¶

最硬的信号是：有公司专门为它开了岗位——而且不只是大厂，连刚拿到钱的初创都把它当成核心岗在招。

最生动的是 MiroFish。2026 年 3 月，北京邮电大学一名大四学生，用"vibe coding"（全程让 AI 编码助手代写）10 天做出一个"群体智能预测引擎"：喂它一篇新闻 / 财报 / 政策草案，它自动抽取实体关系、建知识图谱，再生成成千上万个各有性格、记忆与社交轨迹的 AI agent，用它们的群体行为来推演走向。项目一上线就冲上 GitHub 全球趋势第一，到 2026 年中已累计 6 万+ 星；更夸张的是，盛大集团创始人、"超级个体"论的鼓吹者 陈天桥 在 24 小时内 拍板投了 3000 万元（约 $4.1M）。一个人 + 一套好挽具，十天长成一家被疯抢的公司——这是"模型是商品、harness 是杠杆"最直白的注脚。

拿到钱后，MiroFish 正在孵化一个"重塑评价体系"的新方向，开出的第一批岗里，头一个就是 「AI Harness Engineer」。岗位描述第一句就是"寻找能手搓 Harness Agent 的架构师"，要你把 harness 工程范式应用到所有涉及 AI 的系统里——注意是"所有"，不是写几个 agent，而是用上下文管理、反馈回路和 Evals 体系去重塑现有业务。它列出的职责，几乎可以直接当本书的目录来读：

系统级 Harness 架构：为所有 AI 业务链路搭"双向控制回路"——事前约束（Feedforward）+ 事后纠偏（Feedback），让复杂系统能自恢复、自纠错。（→ 本书第 9 章讲约束，第 12 章讲纠偏）
Context Engineering：把上下文当核心资源，用 Compaction、RAG、JIT 检索在最窄的窗口里塞进最高信号密度的信息。（→ 第 4、5、8、12 章）
Evals 体系：搭离线 + 在线的评测闭环，用 Golden set 精准拦截 Regression，用真实数据驱动每一个架构决策。（→ 第 12、13 章）
长周期任务架构：解决跨上下文窗口的状态一致性，设计可靠的持久化与进度管理。（→ 第 10 章）
性能与并发：在 Token 成本、首字延迟（TTFT）和质量之间找最优解，用 Prompt caching、模型路由、并发调度。（→ 第 3、5 章）

而最扎心的一条任职要求是："拆解并研究过 Claude Code / Codex 等顶级工具的底层实现。"——这正是本书要陪你做完的事。它的加分项里还点名了 DSPy、LangGraph、SWE-bench，和"拥有 >500 star 的 GitHub 项目"。

MiroFish 同一批还在招产品专家、Agent 算法专家、GUI-Agent 专家（专做超大规模长程 agent 集群的编排）——一个刚成立的小团队，已经把 harness、Evals、长程编排拆成了独立工种。

而这绝不是某个初创的孤例——连最前沿的大模型厂，都在为 harness 单独建队、专门开岗。DeepSeek（幻方） 就在北京组建了一支专门的 Harness 团队，做自己的代码 agent（公开对标 Claude Code、Codex），并挂出 「Agent Harness 研发工程师」与「Agent Harness 产品经理」。它的岗位描述几乎是本书论点的官方背书：把"模型之外的一切——工具调用、规划、记忆、上下文管理、终端执行、测试反馈"统称为 Harness，并写下那个公式 "Model + Harness = Agent"；产品岗要求有 Prompt / Context / Harness Engineering 的一手经验，对标工具列了 Claude Code、Cursor、Codex、Manus、Hermes、OpenClaw 一长串。

这股潮更不止国内。海外被疯抢的另一个新角色叫 FDE（Forward Deployed Engineer，前向部署工程师）——据多方统计相关招聘暴涨约 800%，到 2026 年中已有数百个在招岗位，散布在 OpenAI、Anthropic、Google、Palantir、Mistral、Cohere 等公司。OpenAI 在纽约、旧金山、东京、华盛顿多地开 FDE 岗，活儿是"带着前沿模型到客户真实生产环境里端到端落地，再用 eval 驱动的反馈 反过来改产品和模型路线图"；Anthropic 的 Applied AI 团队也设了 FDE，要交付的正是 MCP server、子 agent、agent skills 这些生产级工件，还宣布 2026 年把 Applied AI 团队扩张 5 倍，顶尖总包冲到 50 万美元+。

宏观数字也对得上：据斯坦福《2026 AI Index》，agentic AI（自主多步系统）相关岗位同比增长约 280%、达到约 9 万个在招；国内更紧俏，有统计称一个合格的 Agent 工程师对应 7–8 个岗位需求。

MiroFish 的 Harness Engineer、DeepSeek 的 Agent Harness、海外的 FDE——名字不同，指向同一件事：

工程师的工作，正在从"写代码"转向"设计环境、搭反馈回路、把方案部署进真实系统"。

如果你正打算往这个方向走，这本书既是技术书，也是一份"任职要求拆解"。

信号二：大厂——用 harness 把小团队变成大产能¶

第二个信号，是顶级团队真的在用，而且用出了夸张的杠杆。

OpenAI 那篇文章值得单独拎出来。他们做了个实验：5 个月，一个有真实内部用户和外部 alpha 测试者的产品，0 行手写代码——应用逻辑、测试、CI 配置、文档、observability、内部工具，每一行都是 Codex 写的。期间约 1500 个 PR 被开、被合，团队从 3 人长到 7 人，人均一天约 3.5 个 PR，产出约 一百万行代码。他们估算，这比纯手写大约快了 10 倍。

更关键的是他们对"工程师该干嘛"的重新定义。他们把团队哲学浓缩成一句话：

"Humans steer. Agents execute."（人掌舵，agent 执行。）

人不再亲手写代码，而是去设计环境、明确意图、搭反馈回路；当 agent 卡住，他们不说"再试一次"，而是问"缺了什么能力，怎么把它对 agent 变得既可见又可强制"——然后让 Codex 自己把这个能力补上。这套活，就是 harness engineering 的全部日常。

Anthropic 则从另一个方向给出证据：怎么让一个 agent 跨好几个小时、好几个上下文窗口，持续把一个大项目往前推而不跑飞、不提前宣布完工、不把环境改坏。他们甚至在那篇长程 agent 的文章结尾，直接挂了招聘链接。两家顶级实验室，一个从"造产品"、一个从"做长程 agent"，从不同方向撞到了同一个主题上——这通常意味着，这个主题是真的。

信号三：社区——已经有人在修"地图"¶

第三个信号，是社区开始系统地沉淀。

有人专门做了 awesome-harness-engineering，把这个领域切成 8 大类：基础、上下文/记忆、护栏与安全、规格与 agent 文件、评估与观测、基准、运行时与参考实现……每一类下面挂着几十篇高信号文章和开源项目。Thoughtworks、Red Hat、Milvus 等也都出了体系化的专文，连"harness 专属的 benchmark"（比较的不是模型而是 harness 质量）都出现了一批。

一个领域开始有人编"资源索引"、定"分类法"、做"专属基准"，通常意味着它正从"零散技巧"沉淀成"工程学科"。

三个信号叠在一起，结论很清楚：harness 的热不是错觉，而是一个新工程方向正在成形。剩下的问题只有一个——怎么学？

五、这本书怎么写、为什么偏偏是 Codex¶

讲到这，"harness 很重要"应该已经不需要再说服你。问题变成了方法。

市面上关于 harness 的内容，绝大多数停在"是什么 / 为什么"这一层——OpenAI、Anthropic、Thoughtworks 的博客讲了大量观点和方法论，金句很多，但很少有人带你逐行读一个生产级 harness 的源码，看这些漂亮观点到底怎么落成可运行、跨平台、可配置、有测试的代码。观点和代码之间，隔着一条很宽的河。

这本书想做的，就是陪你过这条河。我们只选一个解剖标本：OpenAI 官方开源的 Codex（Rust 实现，仓库里的 codex-rs）。

为什么是 Codex¶

它是真家伙。 官方开源、生产在用、用 Rust 写的真实 harness，不是为了讲课现搭的玩具 demo。它要处理 macOS / Linux / Windows 三个平台的沙箱、要兼容一堆模型、要被 IDE 和命令行同时调用——所有"现实的脏活"都在里面。
它的结构就是一张 harness 概念图。 后面你会一次次看到：循环、上下文、工具、技能、沙箱、长程、多代理、评估、运行时——这些概念在 codex-rs 里几乎都能找到一个对应的目录或 crate。读它的目录树，几乎就是在读 harness 的分层。
它自己就是"agent-first 开发"的产物。 OpenAI 那篇文章讲的就是"用 Codex 造产品"，而 Codex 自己的代码、CI、文档、甚至给 agent 看的 AGENTS.md 也大量由 agent 生成。于是形成一个漂亮的闭环：我们用这个标本讲方法，而这套方法又能反过来解释这个标本为什么长这样。

当然，标本只有一个不代表观点只有一家。每一章我们都会把 Codex 的具体实现，和 Anthropic、LangChain、Thoughtworks 等的做法、以及 pi / Hermes 这样的极简实现对照着看——看共识、也看分歧。

我们怎么读：四步法¶

每一章都按同一个节奏走，我把它叫四步法：

失败——先看一个真实的失败模式（agent 提前宣布完工、改坏环境、跑飞、把同一个 bug 修了三遍……）。没有痛点，就理解不了某层挽具为什么存在。
机制——harness 用什么机制兜住这个失败。
源码——翻开 Codex，看这个机制怎么落地。我们只读数据结构、控制流和边界，不纠缠 Rust 的生命周期和宏；每段贴出来的代码不超过一屏，且一定配一句"它在解决哪条 harness 问题"。
抽象——把它提炼成你能搬进自己系统（哪怕你的系统是 Python / TypeScript）的设计原则。

你需要什么、不需要什么¶

不需要会 Rust。 你只要能跟着读结构——看懂"这个 struct 有哪些字段、这个函数在什么时候被调用、这里为什么要拦一刀"就够了。
建议你把仓库 clone 下来跟读。 后面给出的每个文件路径都以 codex-rs/ 为基准；用 rg（ripgrep）按符号搜，比顺着读快得多。每个 crate 的 README.md 是最好的入口。
本书不是什么：不是 Rust 教程，不是"100 个 Prompt 模板"那类速成手册，也不是把所有 agent 框架横评一遍的导购。它是一本带你读懂一套真实 harness、并学会自己造一套的书。

提醒一句时效：Codex 是活代码，一直在改。书里引用的文件名、函数名，请以你 clone 到的那个版本为准；写作时我们会标注所基于的大致时间，但"现读现引"永远比"照抄书里"靠谱。这本身也是 harness engineering 的一条纪律——后面会反复提到。

六、全书地图¶

我们把 Codex 这类编码 agent 的 harness，想象成一圈圈包在模型外面的同心层。模型在最内核（那是你唯一不掌控的部分），往外每加一层，agent 就更可靠一分。下面这张地图，也就是本书的章节顺序——每一层，我都顺手点出它要兜住的那个"失败"：

循环（Loop）/ 第 3 章：一切的发动机。一次 turn 怎么从"你说一句话"跑到"它交出结果"。失败长这样：没有循环，模型只能说一句、做一步，没法"调工具→看结果→再决定"。我们会用 pi、Hermes 这两个极简 agent 先把内核看清，再看 Codex 多做了什么。
上下文（Context）/ 第 4 章：每一轮到底喂什么给模型。失败长这样：要么塞太多把预算撑爆、把重点淹没，要么塞太少让它瞎猜。这里会讲到 AGENTS.md 和那条核心原则——给 agent 一张地图，而不是一本一千页的手册。
工具（Tools）/ 第 5–6 章：agent 的手。怎么注册、分发、并发，以及 coding agent 最核心的动作——"改代码"本身——是怎么被工程化成一个安全可回滚的工具的。
能力：Skills 与 MCP / 第 7–8 章：可插拔的技能与外部工具。重点是一个你一定关心的问题：怎么在不把上下文塞满的前提下，让 agent"知道有哪些能力、用时才加载细节"。
约束与安全（Guardrails）/ 第 9 章：让 agent"放手干"又不闯祸的那道闸——执行策略、三平台沙箱、审批、守护。失败长这样：一条 rm -rf 没人拦。
长程状态（Long-running）/ 第 10 章：跨上下文窗口"换班"。失败长这样：新会话一开，前面干的全忘了，从头瞎猜。这是本书的"皇冠章"，讲压缩、目标、记忆与进度工件。
多代理（Multi-agent）/ 第 11 章：一个 agent 不够用时，怎么派生、通信、共享一张状态图。
评估与观测（Eval & Observability）/ 第 12–13 章：谁来判断"做对了"（模型给自己打分总是偏高），以及怎么让日志、指标、追踪这些信号对 agent 可见、能回喂给它去自我修复。
运行时（Runtime）/ 第 14 章：这套 harness 怎么被你的 IDE、命令行、甚至另一个 agent 调用。
工程实践与未来 / 第 15 章：收束方法论——agent-first 团队怎么运转、怎么对抗"代码熵"、以及一份"怎么造你自己的 harness"的可落地清单。

全书地图：模型外面的 Harness 同心层

图 4：全书地图预告——模型在内核，harness 一层层包在外面。

你不用现在就记住每一层，记住这张图的形状就行——一个模型，被一圈圈挽具包着。后面每一章，我们都会回到它，告诉你"我们现在拆到哪一层了"。

本章小结¶

模型是商品，harness 是杠杆。 OpenClaw、Hermes 们火的不是模型，是模型外面那层挽具；同一个模型换套 harness，结果可以从"玩不了"变成"能玩"。
harness 是模型之外、让 agent 可靠工作的全部基础设施：工具、约束、上下文、反馈、长程状态、运行时。这个词从软件测试的 "test harness" 一脉相承，2026 年初才作为一门学科被正式提出，连定义都还在争——正是入场的好时机。
热度有三个硬信号：独立岗位（Harness Engineer、Agent 全栈、FDE）、大厂实践（OpenAI 0 手写代码造百万行、"Humans steer, agents execute"）、社区开始沉淀分类法与专属基准。
本书方法：拿 OpenAI Codex 当唯一解剖标本，按"失败 → 机制 → 源码 → 抽象"四步，逐层拆开它；不要求你会 Rust，但建议你把仓库 clone 下来跟读。

下一章，我们就把 Codex 这套源码的"全景地图"摊开——它有哪些 crate、各管什么、彼此怎么连，以及，怎么读它才不会迷路。

参考来源¶

一夜爆火的项目

OpenClaw — 会动手的本地助手
Hermes Agent（Nous Research） — 会成长、自带学习循环
pi（Mario Zechner） — 极简 coding agent

方法论与业界文章

OpenAI《Harness engineering: leveraging Codex in an agent-first world》 — 0 行手写、Codex 自造脚手架
Anthropic《Effective harnesses for long-running agents》 — 长程 agent
Anthropic《Harness design for long-running application development》 — solo vs 完整 harness 对比
Vivek Trivedy《The Anatomy of an Agent Harness》 — agent = 模型 + harness
Inngest《Your Agent Needs a Harness, Not a Framework》 — harness 不是 framework

行业资料（术语 / 招聘 / 社区）

术语溯源 — Mitchell Hashimoto（"Agent = Model + Harness"）、Birgitta Böckeler（Thoughtworks，发于 martinfowler.com）、"5 家公司 5 种定义"
MiroFish（GitHub） — 6 万+ 星、陈天桥 24 小时投 3000 万元（36氪报道）、招「AI Harness Engineer」
DeepSeek（幻方）Harness 团队 — 「Agent Harness 研发工程师 / 产品经理」、"Model + Harness = Agent"（The Decoder 报道）
FDE 招聘暴涨约 800% — OpenAI / Anthropic / Google 都在招（MarkTechPost）、Anthropic Applied AI FDE
岗位增长 — 斯坦福《2026 AI Index》：agentic AI 相关岗位同比约 +280%
awesome-harness-engineering — 社区资源索引与分类法

注：星标数、术语首次提出者、招聘涨幅等为 2026 年公开报道，定稿前请再核最新数字；公众号版可把外链改为文末"阅读原文"或截图。

第 1 章 导论：什么是 Harness Engineering，为什么是现在¶