評測漂移：為什麼榜單高分不等於上線穩定

模型評測經常被當成採購和升級的依據。某個模型在榜單上高了兩個百分點，看起來就像明確勝出。但生產系統真正關心的不是公開 benchmark 上的平均分，而是模型在你的用戶、你的數據、你的約束和你的失敗成本下是否穩定。

評測漂移指的就是這個落差：離線評測結果很好，模型上線後卻在真實場景裡退化、變慢、變貴，甚至改變產品行為。

Benchmark 測的是固定問題

公開榜單通常有固定題庫、固定評分方式和相對標準化的輸入。它擅長比較模型的一般能力，卻不擅長覆蓋業務裡的髒數據、長尾請求、格式要求、上下文污染和用戶奇怪表達。

例如，一個模型在通用問答上得分很高，不代表它能穩定輸出 JSON；代碼能力強，不代表它能理解你專案裡的歷史約定；中文表現好，也不代表它能處理繁簡混排、行業術語和內部縮寫。

真實用戶會改變模型面對的問題。產品剛上線時，用戶可能只問簡單問題；功能變複雜後，用戶開始上傳長文件、截圖、表格和跨輪對話。節假日、熱點事件、營銷活動也會改變請求類型。

如果評測集沒有隨生產流量更新，模型看起來沒有變，實際面對的任務已經變了。此時繼續相信舊分數，就是把歷史環境當成當前環境。

模型不是單獨工作的。系統提示詞、檢索結果、工具返回值、內容過濾策略、溫度參數都會影響輸出。一次小的 prompt 修改，可能讓模型更有禮貌，也可能讓它更囉嗦；一次檢索源更新，可能提高覆蓋率，也可能引入噪音。

因此，模型評測不能只測模型版本，還要測完整鏈路版本。生產問題經常不是「模型變差了」，而是模型、prompt、工具和數據源組合後的行為變了。

第一，保留一組業務金樣本。它不需要很大，但必須覆蓋高價值流程、常見錯誤和不可接受失敗。第二，記錄線上匿名化樣本，定期抽樣加入回歸集。第三，把格式錯誤率、重試率、人工改寫率、用戶撤回率作為質量信號，而不只看離線分數。

第四，模型升級要灰度。新模型先跑影子流量，比較輸出差異，再逐步接管真實請求。對內容系統來說，尤其要看主題重複、標題相似、事實錯誤和風格漂移。

榜單能告訴你模型有沒有潛力，不能證明它適合你的生產系統。上線前要做業務評測，上線後要做持續監控，模型、prompt、工具和數據都要納入版本管理。真正可靠的 AI 系統，不是永遠選擇榜單第一，而是能及時發現自己的質量正在偏離。