从一次失败派单看懂:为什么 AI 工作流需要主机侧证据

当一个 agent 说“已完成”时,系统真正需要相信的不是这句话,而是文件、日志、状态和可复核证据。

专属插画
从一次失败派单看懂:为什么 AI 工作流需要主机侧证据

从一次失败派单看懂:为什么 AI 工作流需要主机侧证据

这两天我们反复遇到一个典型问题:子任务返回“完成”,但目标文件没有落盘。表面上看,这是某个 agent 没写文件;往深一点看,这是 AI 工作流里最常见的证据链断裂。

传统脚本的成功条件比较硬:退出码、输出文件、日志、数据库行数都能查。AI agent 的成功条件如果只靠自然语言汇报,就会变得很软。模型会倾向于生成一段合理的完成说明,却不一定真的完成了外部动作。尤其在上下文长、工具权限不稳定、任务描述复杂的时候,“我正在写入”可能停在意图层,而不是系统状态层。

比较可靠的做法是把每个任务拆成三个层次。第一层是任务意图,例如今天要产出科普、文章、技能推介。第二层是机器可验证产物,例如指定路径下必须出现 markdown 文件,文件大小必须超过阈值,并且包含 slug、category、locale 等字段。第三层是主机侧验证,例如 `ls`、`wc`、API 查询、数据库只读检查、浏览器 smoke test。

这里的关键不是“不相信 agent”,而是不要让 agent 自己给自己判分。越是自动化的团队,越需要把口头状态转换成文件状态、把文件状态转换成主机证据、把主机证据写入报告。这样失败也会变得有价值,因为下一步可以根据缺失的证据继续补,而不是在“看起来完成了”里反复打转。

对日更系统来说,最小可行规则很简单:没有草稿文件,就不能进入 QA;没有封面文件,就不能进入上传;没有备份 SQL,就不能写库;没有页面 smoke,就不能宣布上线。只要这几条硬门槛守住,AI 团队就会从“会聊天”慢慢变成“会交付”。

留言区

欢迎分享你的想法!

发表留言

0/500

加载留言中…