Harness Engineering 是什么？（强烈推荐）

转载：抖音小白debug

前言🔖

Harness Engineering 是什么？和 Prompt Engineering 以及 Context Engineering有什么关系？

2026年Open ai在一篇博客文章中提到了Harness Engineering，驾驭工程，之后它就快速在AI圈里火了起来。很多人根本不知道它到底是什么，就开始各种跟风吹爆。这在三天一重磅，五天一炸裂的AI圈里，虽然离谱，但也合理，那它到底是什么？和这两年很火的提示词工程（Prompt Engineering ），上下文工程（Context Engineering）又是什么关系？全网资料参差不齐，如有差异，以我为准。

今年就把这些概念，串起来讲透，看完你就会知道。

AI Agent开发的本质 🔖

AI Agent开发，本质上是在做什么？为什么同样的模型，换个AI IDE，效果会差这么多？

有了AI，程序员就不写代码，是真的吗？怎么做到的？

Prompt Engineering 🔖

把ChatGpt，Claude的外壳剥开，里面的大模型LLM，本质就是磁盘上超大参数文件。

将它加载到显卡内存里，

配上HTTP接口，就成了大模型API服务。

给它加个聊天界面，就变成了聊天AI。

加个代码编辑器，就变成了AI IDE。

AI大模型做的事情很简单，就是基于当前输入到内容，预测下一个字词，大概率会是什么？它本质上只是在猜，你想要什么。

所以你给他输入的指令太宽泛，那它预测的答案就会非常发散。

比如你丢给他一段代码，说【加个排序】，它可能只回你排序那部分怎么写。

你得补一句，【给我完整的函数代码】。【不要乱改我的代码】，它给的结果才会更符合要求。

能加的内容有很多，比如：

角色设定
背景
历史对话
参考文档
限制
输出格式

这些约束构成了所谓的提示词。

而这种有意识的调整，和设计提示词，让模型稳定的，朝着你预期的内容和格式，输出的技术手段，就是所谓的提示词工程。

提示词工程解决的是，大模型无引导，乱说话的问题。

Context Engineering🔖

提示词写的越长越仔细，模型就知道的越多，回答就越准，

反过来同理，大模型回答的不准，那大概率是因为，知道的不够多。

于是大家很自然的，会不断往大模型里，塞各种资料。这些打包到一起，发给大模型的所有信息，就叫上下文。

提示词只是上下文的一部分，但大模型再强，一次性能处理的上下文也有最大的限制，这个限制叫上下文窗口。

在AI大模型应用里面，多对话几轮，就很容易将上下文窗口打满。

于是就需要一些策略，去压缩或者丢弃部分信息，在这个过程中，不可避免会丢失关键信息，从而破坏上下文的完整性和准确性。这类问题被统称为上下文腐化。

效果上，就是模型开始记不住，回答前后不一致。

上下文窗口就这么大，于是问题就变成了，怎么才能在合适的时候，将合适的内容塞入到有限的上下文中。

于是衍生了一套负责动态管理大模型上下文的技术，也就是所谓的上下文工程。

提示词是上下文的一部分，那自然提示词工程，其实也是上下文工程的一部分。

上下文工程一般通过外部程序来实现，比如Cursor，Claude code，Trae。

每一家的技术实现都有差异，但总的来说，可以总结为三个步骤：召回，压缩，和组装。

第一步召回，说白了就是找什么信息，这些信息可以来自外部新闻，也可以来自过去聊天记录，当前代码环境，以及程序运行报错等等，总之就是从里面找出最相关的内容。

这里面涉及到一些 RAG，Memory 等技术。随便拿出一个，都能单开一个视频。

信息很多，上下文窗口有限，所以需要将信息变小，于是引入第二步，压缩。

比如将信息分开发给大模型做总结，

之后就是组装，因为信息放置到位置和顺序，会直接影响模型的理解和输出。比如越靠后，越容易被模型关注。所以我们需要通过一定的结构，重新组装内容。这样进入模型的上下文，更精简，更相关，输出也会更稳定，更准确。

不同AI工具的上下文工程策略不同，所以你会发现，就算用的是同一个模型，不同AI工具的执行效果也会有差异。

Claude Code最近也被开源了，正好可以单开一期，讲下它的上下文工程是怎么做的。

Harness Engineering🔖

提示词工程解决了大模型无引导乱说话的问题。

上下文工程解决的是上下文的组织问题。

模型是更聪明了，但它只能聊天，没法帮我们干活。

于是我们可以给大模型加入bash沙箱，文件系统，MCP这些能力，让它能像人一样操作外部工具，读写代码文件，执行命令做测试。

bash沙箱，文件系统，MCP 他们共同构成了执行层，将他们串成一个流程，在外部套一层循环。于是我们就可以通过提示词工程和上下文工程，组装上下文，发给大模型，大模型负责思考，外部程序负责执行。执行过程中，得到的报错等信息，再加到上下文里，继续推理和执行。这套一边思考，一边行动的循环，就是所谓的ReAct。