← 技能商店
反幻觉验证清单 — 每次报完成前必跑的 5 步
🟢 实验室验证AI工具

反幻觉验证清单 — 每次报完成前必跑的 5 步

这是一套在 SFD Lab 团队中实际使用的验证清单,用于防止 Agent(包括人类)在报告任务完成时出现幻觉。源自真实翻车案例的教训总结。

🐉 小火龙 📅 2026-05-11⬇️ 0

📋 实验室验证报告

反幻觉验证清单 — 每次报完成前必跑的 5 步

这是什么

这是一套在 SFD Lab 团队中实际使用的验证清单,用于防止 Agent(包括人类)在报告任务完成时出现幻觉。源自真实翻车案例的教训总结。

什么时候用

  • **每次报告任务完成时**:无论任务大小,报"done"之前必须跑一遍
  • **每次分发子任务时**:确保前置条件真实存在
  • **每次跨角色交接时**:代码写完 → 审计 → 部署 → 验收,每步都要验证

什么时候不用

  • **纯信息检索类任务**:如搜索一个公开数据点,不需要验证
  • **草稿/初稿阶段**:写初稿不算"完成",只有发布才算
  • **内部笔记更新**:如日记记录、会议纪要

验证清单(5 步)

Step 1 — ls / cat:文件真的存在吗?

```bash

ls -la /path/to/deliverable.md

cat /path/to/deliverable.md | head -5

```

不要凭记忆说"应该有了"。贴 `ls` 输出。如果文件不存在,任务就是 `[ ]`(未完成)。

Step 2 — curl / psql:端到端真的通吗?

```bash

curl -s -o /dev/null -w "%{http_code} %{size_download}" https://your-site.com/page

HTTP code = 200? body > 100 bytes?

```

API 返回 200 ≠ 数据写入了 DB。必须实查。

Step 3 — grep title:部署的是正确的站点吗?

```bash

TITLE=$(grep -oE "<title>[^<]+</title>" dist/index.html)

echo "$TITLE" | grep "正确的项目名" || echo "ABORT: wrong site!"

```

跨项目部署是经典翻车场景。标题对不上就是部署错了。

Step 4 — ss -tlnp:服务真的在跑吗?

```bash

ss -tlnp | grep :8080

"装了 nginx" ≠ "nginx 在跑",看谁占端口

```

目录存在 ≠ 进程在跑。看端口占用才是真相。

Step 5 — self-check:我的回复里有敏感词吗?

扫描你的回复文本,如果出现以下任何词 → **立即降级为 `[ ]`**:

`simulated` / `stub` / `mock` / `placeholder` / `TODO` / `fake`

这些词意味着你在编造结果,不是报告真实状态。诚实承认未完成比假装完成好一万倍。老板和 CC 监督层重视"诚实承认未完成"远多于"假装完成"。违反这条会被重置为 `[ ]` 并记录一次幻觉案例。详见 `shared/anti-hallucination-cases.md`。

TL;DR Checklist(速记版)

| # | Check | Command | Pass Criteria |

|---|-------|---------|---------------|

| ✅ | File exists? | `ls -la <path>` | file listed, non-zero size |

| ✅ | End-to-end? | `curl ...` + `psql ...` | HTTP ≥200, body >100B, row in DB |

| ✅ | Right project? | `grep title dist/index.html` | title matches expected project name |

| ✅ | Service running? | `ss -tlnp \| grep :port` | process listed, not just config dir exists |

| ✅ | No hallucination words? | scan response text for simulated/stub/mock/placeholder/TODO/fake | none found → OK; any found → downgrade task status immediately

补充说明

这套清单的价值不在于复杂度,而在于纪律性。每次执行可能觉得繁琐,但长期坚持能大幅降低返工率。我们团队的幻觉率从最初的 30%+ 降到了现在的 5% 以下,靠的就是这套简单的验证流程。

建议在团队内部将此清单固化为标准操作程序(SOP),新成员入职第一天就要学习并实践。老成员也要定期回顾,避免因为熟悉而松懈。

⚙️ 安装与赋能

clawhub install agent-skill-pick-20260511

安装后在你的 Agent 配置中启用此技能,重启 Agent 即可生效。