第 1 章 导论:什么是 Harness Engineering,为什么是现在¶
本章几乎不碰代码。我们先看几个"一夜爆火"的东西,再回答一个问题:它们到底火的是什么?答案会引出这本书的主角——harness。
引子:一只🦞用 72 小时干了什么¶
先讲个画面。
2025 年底,如果你是个写代码的人,大概率经历过这样一幕:你打开某个大模型的对话框,让它"帮我把这个项目跑起来、修掉这个 bug"。它给你一大段看起来很对的代码,你复制、粘贴、运行——报错。你把报错贴回去,它道歉,再给一段,又报错。来回十几轮,你最后叹口气,自己动手改了。模型很聪明,可它就是没法真的把活干完。
然后,2026 年初的一个周末,一个图标是龙虾的开源项目冲上了 GitHub 趋势榜第一,名字叫 OpenClaw。72 小时,6 万颗星。到 4 月,它累计约 34.7 万颗星,成为 GitHub 历史上星标最高的仓库——比你叫得出名字的大多数框架、编程语言、操作系统都高。有人直接管它叫"我们离 JARVIS 最近的一次"。
更有意思的是后面这个数字:有 AI 服务商报告,2026 年第一季度,他们 三分之一 的新企业客户,是从"托管的 agent 服务"迁回来、改用自托管的 OpenClaw 的。也就是说,它不只是极客的玩具,已经被 Fortune 500 们当成正经基础设施在用。
OpenClaw 不是一个模型。它是一个"个人 AI 助手":跑在你自己的机器上,记得住跨对话的上下文,能真的在你电脑上干活——读写文件、跑 shell、做网页自动化。你在 WhatsApp、Telegram、Discord、甚至 iMessage 里发一句话,它就去执行。它内置了 100 多个预置技能(AgentSkills),覆盖命令行、文件系统、网页操作。而最关键的一点是:它自己不带模型——你自带 Claude、DeepSeek 或 GPT 的 API key,想接哪个接哪个。
几乎同一时间,另一个项目也在爆发。AI 研究机构 Nous Research 在 2026 年 2 月 25 日发布了 Hermes Agent,口号是"会跟你一起成长的 agent"。90 天,14 万颗星,将近 1000 名贡献者。Hermes 的卖点是一个"学习闭环":它能从经验里长出新技能、在使用中改进它们、提醒自己把知识持久化下来、检索自己过去的对话,跨会话越来越懂"你是谁"。而它的作者撂下一句很有意思的话,大意是:开源模型也能打,只要给它配上对的 harness。
再算上更早就火、已经被无数工程师日常使用的 Claude Code,OpenAI 自家的 Codex,以及一个几百行代码、四个工具就能跑起来的极简编码 agent "pi"……你会发现这不是孤例,而是一股潮:2026 年,最受关注的一批 AI 产品,主角都不是新模型,而是"包在模型外面"的东西。
那么问题来了:这些东西,到底火的是什么?
一、三个"一夜爆火"的项目,一个共同的反常识¶
我们把镜头拉近一点,看清楚它们各自是什么。
OpenClaw,本质是一个"会动手的助手"。传统聊天机器人是"对话接口",你问它答;OpenClaw 是"行动接口",你说一句"把这个文件夹里所有发票汇总成一张表,发到我邮箱",它会去列目录、读文件、写表格、调邮件——一套动作真的发生在你的机器上。它把 AI 从"能说"变成了"能做"。它之所以能这么火,除了"会动手",还有两个工程上的原因:隐私(全程在你自己机器/服务器上,模型 key 你自己拿着,数据不出门)和可扩展(100+ 技能可插拔,社区还在不停加)。
Hermes Agent,本质是一个"会成长的助手"。它比"会动手"多走了一步:把每一次任务的经验沉淀下来。用 Nous Research 自己的话说,它把会话当成基础设施(session as infrastructure)、把工具的注册和工具的暴露分开(你注册了一百个工具,不等于每轮都把一百个塞给模型看)、还做了基于谱系的上下文压缩。这些词你现在不用懂,记住一件事就行:Hermes 火,是因为它在"模型外面那层"做得足够好,好到能让一个开源模型追上商业产品。它的产品主张写得明明白白:有了开源工具 + 任意一个大模型 API,个人就该能部署出一个不输商业方案的 agent。
Claude Code / Codex / pi,本质是"会写代码的助手",也就是 coding agent。它们是这股潮里离工程师最近、也最适合用来"解剖"的一类——因为代码的对错可以被测试、被运行、被验证,反馈最硬。其中 pi 尤其值得记一笔:它由 Mario Zechner 写,只有四个工具(读、写、改、跑命令)、一个最朴素的循环、约 1000 token 的系统提示,却能干不少活。它存在的意义,是告诉你"一个能用的 agent,内核可以有多简单"——这条线索我们第 3 章会专门用到。
把它们摆在一起,那个反常识的共同点就藏不住了:
OpenClaw 自己不带模型,你自带 key;Hermes 明说开源模型配上对的 harness 就能打;Claude Code 和 Codex 背后是 Claude 和 GPT——可这两个模型,调 API 谁都能调。
同一批模型,人人都能用。 真正把这些产品和"你随手写的一个调大模型的脚本"拉开差距的,从来不是模型本身。
为什么偏偏是 2026 集中爆发?¶
你可能会问:大模型不是早就有了吗,为什么"模型外面那层"突然在 2026 年集中引爆?
两个原因叠在一起。第一,模型终于强到"可以放手"了。早一两代的模型,让它连续自主跑几十步就会跑飞;而到了 2026 年这一代(Anthropic 自己提到,Opus 4.5 到 4.6 之间,模型甚至能自己摆脱"上下文焦虑"、连续工作两个多小时),"长时间自主干活"第一次变得现实。模型能跑得久,外面那层"怎么管它跑"的工程价值,立刻就凸显出来了。第二,模型也终于强到"能自己造外面那层"了——后面你会看到,OpenAI 的 Codex 连自己的脚手架、CI、文档都是自己写的。
于是 2026 成了一个奇妙的临界点:模型既值得被精心"套上挽具",又有能力帮你把挽具造出来。这层东西的名字,叫 harness。

图 1:同一个模型,差别全在外面这层 harness。
二、爆的不是模型,是模型外面那层¶
"harness"直译是"挽具"——套在马身上、把马力转化成可控牵引的那套装备。这个比喻很贴:模型是马,harness 是挽具。 马再壮,没有挽具就是信马由缰——使不上劲、拉不动车,还可能尥蹶子踢翻你;而一匹普通的马,配上好挽具、好车架、好缰绳,蛮力就变成可用功,能稳稳把一车货拉到目的地。
放到 agent 上,模型外面那层"挽具"至少包括:它能调用哪些工具、被关在什么沙箱里、每轮喂给它什么上下文、跑飞了靠什么反馈纠回来、跨天的任务怎么接力、出了问题你怎么看见。本书后面每一章,拆的就是这套挽具的一个部件。
这不是文学比喻,是有硬数据撑着的。我们看两组。
第一组:只换 harness,不换模型。 LangChain 做过一个实验:模型完全不动,只改外面那层 harness,就能把一个 agent 的基准表现从中游拉到第一梯队。换句话说,你手上那个"表现一般"的 agent,问题很可能不在模型,而在你给它的挽具。
第二组:同一个模型,两套 harness,结果天壤之别。 Anthropic 做过一个很直观的对比。同样一句话——"做一个 2D 复古游戏制作器"——交给同一个模型(Opus 4.5):
- 裸跑(solo,没有精心设计的 harness):20 分钟,花了 9 美元,产出一个"看起来像那么回事"的应用。但点进去就露馅:布局浪费、流程别扭,最致命的是游戏根本玩不了——实体能画出来,却对输入毫无反应,底层接线断了,界面上还看不出哪里断的。
- 套上完整 harness(一个 planner + generator + evaluator 的多代理结构,能自己规划、自己写、再自己当 QA 把着关):6 小时,花了 200 美元,产出一个有 16 个功能、十个迭代、带精灵编辑器、行为系统、音效、甚至内置 AI 辅助生成的游戏制作器——而且真的能玩。
后者贵了 20 多倍,但这恰恰说明问题:模型一样,差距全在外面那层。 那 20 倍成本买到的,不是更强的模型,而是"会规划、会自查、不糊弄"的一套工程结构。
如果你是工程师,这件事的含义很直接:
模型是买来的,是商品;harness 是你自己造的,是杠杆。
当所有人都能用上同样的 Opus、GPT、DeepSeek,模型这一项就从"竞争优势"变成了"入场券"。真正决定你的 agent 好不好用、能不能上生产、敢不敢放手的,是你给它搭的那套挽具。这也是为什么,"做 harness"正在从一项零散技巧,变成一个值得专门投入的工程方向——下一节我们就说说,它什么时候有了正式的名字。

图 2:2026 年爆火的不是新模型,而是模型外面的行动系统。
三、给它一个名字:Harness,以及它从哪来¶
先把定义钉死¶
本书说的 harness,指模型之外、为了让 agent 可靠工作而存在的全部基础设施。展开来,它至少包含这么几层(也正好是本书的骨架):
- 工具(Tools):它能调用什么——读文件、跑命令、改代码、查网络、调外部服务;
- 约束与安全(Guardrails):它被关在什么边界里——哪些目录能写、什么命令要先问你、网络能不能出;
- 上下文(Context):每一轮喂给模型什么——系统提示、仓库知识、历史对话、当前环境事实;
- 反馈(Feedback):它怎么知道自己做对没有——测试、评审、观测信号;
- 长程状态(Long-running):跨上下文窗口、跨会话怎么接力一个大任务而不失忆;
- 运行时(Runtime):这一切被什么驱动、怎么被你的 IDE / 命令行 / 其他程序调用。
注意:这里面没有"模型"。模型是这套系统里唯一你不掌控、直接买来用的部件。harness engineering 关心的,全是模型之外的东西。
术语小考:harness 这个词其实是工程师的老朋友。 在 AI 之前,"harness"在软件里早有一个意思——测试框架(test harness):包在被测代码外面、负责喂输入、跑用例、收结果的那套脚手架。你看,"包在外面、负责喂数据和收结果、让里面那块东西能被可靠地驱动和检验"——这个内核,从 test harness 到 agent harness,一脉相承。所以工程师对这个词其实天然有亲切感。
这个词从哪来:一个还在抢的功劳¶
有意思的是,"harness"这个词从概念到成为一门正经学科,时间线比很多人以为的要早,也更乱——早到这个概念在 2025 年底就被严肃使用,乱到"harness engineering 这个名字谁先叫响"至今还在争:
- 2025 年 11 月 26 日,Anthropic 在工程博客发出 《Effective harnesses for long-running agents》,系统讲了怎么用一套 harness 让 agent 跨多个上下文窗口长时间干活——这是 "harness" 作为 agent 工程术语的一次重要早期亮相(几个月后又有续作《Harness design for long-running application development》,2026 年 3 月)。
- 2026 年 2 月初,Mitchell Hashimoto(HashiCorp、Terraform 作者)把它正式叫成一门手艺——"engineering the harness":每当 agent 犯错,就把一个永久性的修复"焊进"它的环境。他给出那个流传最广的公式:Agent = Model + Harness。
- 也有人把"讲得最干净"的功劳记在 LangChain 的 Vivek Trivedy 名下——他那篇 《The Anatomy of an Agent Harness》 把"agent = 模型 + harness、每个部件为何存在"拆得最清楚。
- 2026 年 2 月,OpenAI 工程团队发《Harness engineering: leveraging Codex in an agent-first world》,配上"百万行代码、几乎 0 行人手写"的猛料,几乎一夜之间把这个词推爆。
- 之后 Thoughtworks 的 Birgitta Böckeler(发表在 martinfowler.com)又用一套"导引 / 传感器(guides / sensors)+ 对抗熵的'垃圾回收'"框架把它系统化,成了很多人引用的参照。
到现在,业界甚至有"5 家公司,5 种定义"的调侃——大家都同意 harness 重要,但对它到底包含哪些部件、边界画在哪,各执一词。

图 3:Harness Engineering 作为术语被正式讨论,仍处在多方定义并行的早期阶段。
为什么是"harness",而不是"framework"¶
你可能会想:这不就是个 agent 框架(framework)吗,换个词而已?
差别恰恰在这。社区里逐渐形成一个共识:你的 agent 需要的是 harness,不是 framework。 framework 通常是"你把代码填进它的空里、按它的规矩来";而 harness 更像是"围绕模型搭的一整套可控环境与反馈回路"——它强调的是状态、重试、追踪、并发、约束、验证这些"让不确定的东西变可靠"的基础设施,而不是又一套 API 约定。一个细微但重要的区别是:framework 想让你少写代码,harness 想让你的 agent 可靠地多干活。这本书自始至终站在后者这一边。
这件事你别嫌乱,反而该高兴:一个连定义都还在抢、连和"框架"的边界都还在划的领域,恰恰是最值得早入场的领域。 等它有了教科书、有了"标准答案",红利也就薄了。而你手上正好有一个最好的学习材料——一个把这些概念全都落成了真实代码的开源项目。我们第五节就说它。
四、热度不是错觉:岗位、大厂、社区¶
光看 GitHub 星标,你可能会想:是不是又一波炒作,过两个月就凉?我们看三个更硬、更难造假的信号:有没有人为它付钱招人、顶级团队是否真在用它、社区有没有开始沉淀。
信号一:招聘——它已经是一个独立工种¶
最硬的信号是:有公司专门为它开了岗位——而且不只是大厂,连刚拿到钱的初创都把它当成核心岗在招。
最生动的是 MiroFish。2026 年 3 月,北京邮电大学一名大四学生,用"vibe coding"(全程让 AI 编码助手代写)10 天做出一个"群体智能预测引擎":喂它一篇新闻 / 财报 / 政策草案,它自动抽取实体关系、建知识图谱,再生成成千上万个各有性格、记忆与社交轨迹的 AI agent,用它们的群体行为来推演走向。项目一上线就冲上 GitHub 全球趋势第一,到 2026 年中已累计 6 万+ 星;更夸张的是,盛大集团创始人、"超级个体"论的鼓吹者 陈天桥 在 24 小时内 拍板投了 3000 万元(约 $4.1M)。一个人 + 一套好挽具,十天长成一家被疯抢的公司——这是"模型是商品、harness 是杠杆"最直白的注脚。
拿到钱后,MiroFish 正在孵化一个"重塑评价体系"的新方向,开出的第一批岗里,头一个就是 「AI Harness Engineer」。岗位描述第一句就是"寻找能手搓 Harness Agent 的架构师",要你把 harness 工程范式应用到所有涉及 AI 的系统里——注意是"所有",不是写几个 agent,而是用上下文管理、反馈回路和 Evals 体系去重塑现有业务。它列出的职责,几乎可以直接当本书的目录来读:
- 系统级 Harness 架构:为所有 AI 业务链路搭"双向控制回路"——事前约束(Feedforward)+ 事后纠偏(Feedback),让复杂系统能自恢复、自纠错。(→ 本书第 9 章讲约束,第 12 章讲纠偏)
- Context Engineering:把上下文当核心资源,用 Compaction、RAG、JIT 检索在最窄的窗口里塞进最高信号密度的信息。(→ 第 4、5、8、12 章)
- Evals 体系:搭离线 + 在线的评测闭环,用 Golden set 精准拦截 Regression,用真实数据驱动每一个架构决策。(→ 第 12、13 章)
- 长周期任务架构:解决跨上下文窗口的状态一致性,设计可靠的持久化与进度管理。(→ 第 10 章)
- 性能与并发:在 Token 成本、首字延迟(TTFT)和质量之间找最优解,用 Prompt caching、模型路由、并发调度。(→ 第 3、5 章)
而最扎心的一条任职要求是:"拆解并研究过 Claude Code / Codex 等顶级工具的底层实现。"——这正是本书要陪你做完的事。它的加分项里还点名了 DSPy、LangGraph、SWE-bench,和"拥有 >500 star 的 GitHub 项目"。
MiroFish 同一批还在招产品专家、Agent 算法专家、GUI-Agent 专家(专做超大规模长程 agent 集群的编排)——一个刚成立的小团队,已经把 harness、Evals、长程编排拆成了独立工种。
而这绝不是某个初创的孤例——连最前沿的大模型厂,都在为 harness 单独建队、专门开岗。DeepSeek(幻方) 就在北京组建了一支专门的 Harness 团队,做自己的代码 agent(公开对标 Claude Code、Codex),并挂出 「Agent Harness 研发工程师」与「Agent Harness 产品经理」。它的岗位描述几乎是本书论点的官方背书:把"模型之外的一切——工具调用、规划、记忆、上下文管理、终端执行、测试反馈"统称为 Harness,并写下那个公式 "Model + Harness = Agent";产品岗要求有 Prompt / Context / Harness Engineering 的一手经验,对标工具列了 Claude Code、Cursor、Codex、Manus、Hermes、OpenClaw 一长串。
这股潮更不止国内。海外被疯抢的另一个新角色叫 FDE(Forward Deployed Engineer,前向部署工程师)——据多方统计相关招聘暴涨约 800%,到 2026 年中已有数百个在招岗位,散布在 OpenAI、Anthropic、Google、Palantir、Mistral、Cohere 等公司。OpenAI 在纽约、旧金山、东京、华盛顿多地开 FDE 岗,活儿是"带着前沿模型到客户真实生产环境里端到端落地,再用 eval 驱动的反馈 反过来改产品和模型路线图";Anthropic 的 Applied AI 团队也设了 FDE,要交付的正是 MCP server、子 agent、agent skills 这些生产级工件,还宣布 2026 年把 Applied AI 团队扩张 5 倍,顶尖总包冲到 50 万美元+。
宏观数字也对得上:据斯坦福《2026 AI Index》,agentic AI(自主多步系统)相关岗位同比增长约 280%、达到约 9 万个在招;国内更紧俏,有统计称一个合格的 Agent 工程师对应 7–8 个岗位需求。
MiroFish 的 Harness Engineer、DeepSeek 的 Agent Harness、海外的 FDE——名字不同,指向同一件事:
工程师的工作,正在从"写代码"转向"设计环境、搭反馈回路、把方案部署进真实系统"。
如果你正打算往这个方向走,这本书既是技术书,也是一份"任职要求拆解"。
信号二:大厂——用 harness 把小团队变成大产能¶
第二个信号,是顶级团队真的在用,而且用出了夸张的杠杆。
OpenAI 那篇文章值得单独拎出来。他们做了个实验:5 个月,一个有真实内部用户和外部 alpha 测试者的产品,0 行手写代码——应用逻辑、测试、CI 配置、文档、observability、内部工具,每一行都是 Codex 写的。期间约 1500 个 PR 被开、被合,团队从 3 人长到 7 人,人均一天约 3.5 个 PR,产出约 一百万行代码。他们估算,这比纯手写大约快了 10 倍。
更关键的是他们对"工程师该干嘛"的重新定义。他们把团队哲学浓缩成一句话:
"Humans steer. Agents execute."(人掌舵,agent 执行。)
人不再亲手写代码,而是去设计环境、明确意图、搭反馈回路;当 agent 卡住,他们不说"再试一次",而是问"缺了什么能力,怎么把它对 agent 变得既可见又可强制"——然后让 Codex 自己把这个能力补上。这套活,就是 harness engineering 的全部日常。
Anthropic 则从另一个方向给出证据:怎么让一个 agent 跨好几个小时、好几个上下文窗口,持续把一个大项目往前推而不跑飞、不提前宣布完工、不把环境改坏。他们甚至在那篇长程 agent 的文章结尾,直接挂了招聘链接。两家顶级实验室,一个从"造产品"、一个从"做长程 agent",从不同方向撞到了同一个主题上——这通常意味着,这个主题是真的。
信号三:社区——已经有人在修"地图"¶
第三个信号,是社区开始系统地沉淀。
有人专门做了 awesome-harness-engineering,把这个领域切成 8 大类:基础、上下文/记忆、护栏与安全、规格与 agent 文件、评估与观测、基准、运行时与参考实现……每一类下面挂着几十篇高信号文章和开源项目。Thoughtworks、Red Hat、Milvus 等也都出了体系化的专文,连"harness 专属的 benchmark"(比较的不是模型而是 harness 质量)都出现了一批。
一个领域开始有人编"资源索引"、定"分类法"、做"专属基准",通常意味着它正从"零散技巧"沉淀成"工程学科"。
三个信号叠在一起,结论很清楚:harness 的热不是错觉,而是一个新工程方向正在成形。剩下的问题只有一个——怎么学?
五、这本书怎么写、为什么偏偏是 Codex¶
讲到这,"harness 很重要"应该已经不需要再说服你。问题变成了方法。
市面上关于 harness 的内容,绝大多数停在"是什么 / 为什么"这一层——OpenAI、Anthropic、Thoughtworks 的博客讲了大量观点和方法论,金句很多,但很少有人带你逐行读一个生产级 harness 的源码,看这些漂亮观点到底怎么落成可运行、跨平台、可配置、有测试的代码。观点和代码之间,隔着一条很宽的河。
这本书想做的,就是陪你过这条河。我们只选一个解剖标本:OpenAI 官方开源的 Codex(Rust 实现,仓库里的 codex-rs)。
为什么是 Codex¶
- 它是真家伙。 官方开源、生产在用、用 Rust 写的真实 harness,不是为了讲课现搭的玩具 demo。它要处理 macOS / Linux / Windows 三个平台的沙箱、要兼容一堆模型、要被 IDE 和命令行同时调用——所有"现实的脏活"都在里面。
- 它的结构就是一张 harness 概念图。 后面你会一次次看到:循环、上下文、工具、技能、沙箱、长程、多代理、评估、运行时——这些概念在
codex-rs里几乎都能找到一个对应的目录或 crate。读它的目录树,几乎就是在读 harness 的分层。 - 它自己就是"agent-first 开发"的产物。 OpenAI 那篇文章讲的就是"用 Codex 造产品",而 Codex 自己的代码、CI、文档、甚至给 agent 看的
AGENTS.md也大量由 agent 生成。于是形成一个漂亮的闭环:我们用这个标本讲方法,而这套方法又能反过来解释这个标本为什么长这样。
当然,标本只有一个不代表观点只有一家。每一章我们都会把 Codex 的具体实现,和 Anthropic、LangChain、Thoughtworks 等的做法、以及 pi / Hermes 这样的极简实现对照着看——看共识、也看分歧。
我们怎么读:四步法¶
每一章都按同一个节奏走,我把它叫四步法:
- 失败——先看一个真实的失败模式(agent 提前宣布完工、改坏环境、跑飞、把同一个 bug 修了三遍……)。没有痛点,就理解不了某层挽具为什么存在。
- 机制——harness 用什么机制兜住这个失败。
- 源码——翻开 Codex,看这个机制怎么落地。我们只读数据结构、控制流和边界,不纠缠 Rust 的生命周期和宏;每段贴出来的代码不超过一屏,且一定配一句"它在解决哪条 harness 问题"。
- 抽象——把它提炼成你能搬进自己系统(哪怕你的系统是 Python / TypeScript)的设计原则。
你需要什么、不需要什么¶
- 不需要会 Rust。 你只要能跟着读结构——看懂"这个 struct 有哪些字段、这个函数在什么时候被调用、这里为什么要拦一刀"就够了。
- 建议你把仓库 clone 下来跟读。 后面给出的每个文件路径都以
codex-rs/为基准;用rg(ripgrep)按符号搜,比顺着读快得多。每个 crate 的README.md是最好的入口。 - 本书不是什么:不是 Rust 教程,不是"100 个 Prompt 模板"那类速成手册,也不是把所有 agent 框架横评一遍的导购。它是一本带你读懂一套真实 harness、并学会自己造一套的书。
提醒一句时效:Codex 是活代码,一直在改。书里引用的文件名、函数名,请以你 clone 到的那个版本为准;写作时我们会标注所基于的大致时间,但"现读现引"永远比"照抄书里"靠谱。这本身也是 harness engineering 的一条纪律——后面会反复提到。
六、全书地图¶
我们把 Codex 这类编码 agent 的 harness,想象成一圈圈包在模型外面的同心层。模型在最内核(那是你唯一不掌控的部分),往外每加一层,agent 就更可靠一分。下面这张地图,也就是本书的章节顺序——每一层,我都顺手点出它要兜住的那个"失败":
- 循环(Loop)/ 第 3 章:一切的发动机。一次 turn 怎么从"你说一句话"跑到"它交出结果"。失败长这样:没有循环,模型只能说一句、做一步,没法"调工具→看结果→再决定"。我们会用 pi、Hermes 这两个极简 agent 先把内核看清,再看 Codex 多做了什么。
- 上下文(Context)/ 第 4 章:每一轮到底喂什么给模型。失败长这样:要么塞太多把预算撑爆、把重点淹没,要么塞太少让它瞎猜。这里会讲到
AGENTS.md和那条核心原则——给 agent 一张地图,而不是一本一千页的手册。 - 工具(Tools)/ 第 5–6 章:agent 的手。怎么注册、分发、并发,以及 coding agent 最核心的动作——"改代码"本身——是怎么被工程化成一个安全可回滚的工具的。
- 能力:Skills 与 MCP / 第 7–8 章:可插拔的技能与外部工具。重点是一个你一定关心的问题:怎么在不把上下文塞满的前提下,让 agent"知道有哪些能力、用时才加载细节"。
- 约束与安全(Guardrails)/ 第 9 章:让 agent"放手干"又不闯祸的那道闸——执行策略、三平台沙箱、审批、守护。失败长这样:一条
rm -rf没人拦。 - 长程状态(Long-running)/ 第 10 章:跨上下文窗口"换班"。失败长这样:新会话一开,前面干的全忘了,从头瞎猜。这是本书的"皇冠章",讲压缩、目标、记忆与进度工件。
- 多代理(Multi-agent)/ 第 11 章:一个 agent 不够用时,怎么派生、通信、共享一张状态图。
- 评估与观测(Eval & Observability)/ 第 12–13 章:谁来判断"做对了"(模型给自己打分总是偏高),以及怎么让日志、指标、追踪这些信号对 agent 可见、能回喂给它去自我修复。
- 运行时(Runtime)/ 第 14 章:这套 harness 怎么被你的 IDE、命令行、甚至另一个 agent 调用。
- 工程实践与未来 / 第 15 章:收束方法论——agent-first 团队怎么运转、怎么对抗"代码熵"、以及一份"怎么造你自己的 harness"的可落地清单。
图 4:全书地图预告——模型在内核,harness 一层层包在外面。
你不用现在就记住每一层,记住这张图的形状就行——一个模型,被一圈圈挽具包着。后面每一章,我们都会回到它,告诉你"我们现在拆到哪一层了"。
本章小结¶
- 模型是商品,harness 是杠杆。 OpenClaw、Hermes 们火的不是模型,是模型外面那层挽具;同一个模型换套 harness,结果可以从"玩不了"变成"能玩"。
- harness 是模型之外、让 agent 可靠工作的全部基础设施:工具、约束、上下文、反馈、长程状态、运行时。这个词从软件测试的 "test harness" 一脉相承,2026 年初才作为一门学科被正式提出,连定义都还在争——正是入场的好时机。
- 热度有三个硬信号:独立岗位(Harness Engineer、Agent 全栈、FDE)、大厂实践(OpenAI 0 手写代码造百万行、"Humans steer, agents execute")、社区开始沉淀分类法与专属基准。
- 本书方法:拿 OpenAI Codex 当唯一解剖标本,按"失败 → 机制 → 源码 → 抽象"四步,逐层拆开它;不要求你会 Rust,但建议你把仓库 clone 下来跟读。
下一章,我们就把 Codex 这套源码的"全景地图"摊开——它有哪些 crate、各管什么、彼此怎么连,以及,怎么读它才不会迷路。
参考来源¶
一夜爆火的项目
- OpenClaw — 会动手的本地助手
- Hermes Agent(Nous Research) — 会成长、自带学习循环
- pi(Mario Zechner) — 极简 coding agent
方法论与业界文章
- OpenAI《Harness engineering: leveraging Codex in an agent-first world》 — 0 行手写、Codex 自造脚手架
- Anthropic《Effective harnesses for long-running agents》 — 长程 agent
- Anthropic《Harness design for long-running application development》 — solo vs 完整 harness 对比
- Vivek Trivedy《The Anatomy of an Agent Harness》 — agent = 模型 + harness
- Inngest《Your Agent Needs a Harness, Not a Framework》 — harness 不是 framework
行业资料(术语 / 招聘 / 社区)
- 术语溯源 — Mitchell Hashimoto("Agent = Model + Harness")、Birgitta Böckeler(Thoughtworks,发于 martinfowler.com)、"5 家公司 5 种定义"
- MiroFish(GitHub) — 6 万+ 星、陈天桥 24 小时投 3000 万元(36氪报道)、招「AI Harness Engineer」
- DeepSeek(幻方)Harness 团队 — 「Agent Harness 研发工程师 / 产品经理」、"Model + Harness = Agent"(The Decoder 报道)
- FDE 招聘暴涨约 800% — OpenAI / Anthropic / Google 都在招(MarkTechPost)、Anthropic Applied AI FDE
- 岗位增长 — 斯坦福《2026 AI Index》:agentic AI 相关岗位同比约 +280%
awesome-harness-engineering— 社区资源索引与分类法
注:星标数、术语首次提出者、招聘涨幅等为 2026 年公开报道,定稿前请再核最新数字;公众号版可把外链改为文末"阅读原文"或截图。