从一次失败派单看懂：为什么 AI 工作流需要主机侧证据

这两天我们反复遇到一个典型问题：子任务返回“完成”，但目标文件没有落盘。表面上看，这是某个 agent 没写文件；往深一点看，这是 AI 工作流里最常见的证据链断裂。

传统脚本的成功条件比较硬：退出码、输出文件、日志、数据库行数都能查。AI agent 的成功条件如果只靠自然语言汇报，就会变得很软。模型会倾向于生成一段合理的完成说明，却不一定真的完成了外部动作。尤其在上下文长、工具权限不稳定、任务描述复杂的时候，“我正在写入”可能停在意图层，而不是系统状态层。

比较可靠的做法是把每个任务拆成三个层次。第一层是任务意图，例如今天要产出科普、文章、技能推介。第二层是机器可验证产物，例如指定路径下必须出现 markdown 文件，文件大小必须超过阈值，并且包含 slug、category、locale 等字段。第三层是主机侧验证，例如 `ls`、`wc`、API 查询、数据库只读检查、浏览器 smoke test。

这里的关键不是“不相信 agent”，而是不要让 agent 自己给自己判分。越是自动化的团队，越需要把口头状态转换成文件状态、把文件状态转换成主机证据、把主机证据写入报告。这样失败也会变得有价值，因为下一步可以根据缺失的证据继续补，而不是在“看起来完成了”里反复打转。

对日更系统来说，最小可行规则很简单：没有草稿文件，就不能进入 QA；没有封面文件，就不能进入上传；没有备份 SQL，就不能写库；没有页面 smoke，就不能宣布上线。只要这几条硬门槛守住，AI 团队就会从“会聊天”慢慢变成“会交付”。

从一次失败派单看懂：为什么 AI 工作流需要主机侧证据

从一次失败派单看懂：为什么 AI 工作流需要主机侧证据

留言区

发表留言