量化不只是壓縮模型：FP8、MXFP4 與 KV Cache 的品質邊界

量化經常被簡化成一句話：把模型從更高精度壓到更低精度，省顯存、提速度。但在真實推理系統裡，量化不是一個單獨的開關，而是一組工程取捨：權重要不要量化，激活要不要量化，KV Cache 要不要量化，哪些層必須保留高精度，哪些任務會先出現品質下滑。

這也是 FP8、MXFP4 這類格式受到關注的原因。它們不是為了「把數字變小」這麼簡單，而是在硬體吞吐、顯存佔用和模型穩定性之間重新劃線。

為什麼 INT4 不是萬能答案

低比特量化最直觀的收益是顯存下降。同樣一張卡，可以放下更大的模型，或者在同一模型上承載更長上下文、更高併發。但比特數越低，表示範圍越窄，誤差越容易集中到少數關鍵層。模型表面上還能回答，細節推理、程式碼生成、數學步驟和長輸出一致性卻會先變差。

工程上真正難的地方不是「能不能跑」，而是「跑起來以後哪一類請求先壞」。有些模型在聊天任務裡看起來正常，但在結構化輸出裡開始漏欄位；有些模型短問答沒問題，一進入長鏈路推理就出現格式漂移。

FP8 保留浮點格式的動態範圍，比純整數格式更適合處理激活值和離群值。對推理服務來說，它的吸引力在於：如果硬體原生支援 FP8，就能在較小品質損失下獲得更高吞吐。

但 FP8 也不是自動安全。不同層對精度的敏感程度不同，注意力層、歸一化層、輸出頭的誤差會被後續計算放大。成熟的部署通常會採用混合精度：大部分矩陣乘法走低精度，少數敏感路徑保留 BF16 或 FP16。

MXFP4 這類更激進的格式，把問題推向另一個方向：是否可以用更細粒度的縮放因子，讓 4bit 也保留足夠有效資訊。它適合追求極致吞吐的場景，但對校準數據、分塊策略和硬體支援要求更高。

如果校準數據只覆蓋常規聊天，模型上線後遇到程式碼、數學、法律條文、表格抽取，就可能會出現品質懸崖。所謂品質懸崖，不是分數平滑下降，而是某些能力突然失效。

長上下文推理時，KV Cache 往往比權重更先吃滿顯存。壓縮 KV Cache 可以顯著提高上下文長度和併發，但它直接影響注意力讀取歷史資訊的精度。短文本裡不明顯，長文件、多輪對話和跨段引用時，錯誤會被放大。

實際部署可以把 KV Cache 量化作為分層策略：普通問答啟用，長文件分析保守啟用，高價值任務保留高精度。同時監控輸出一致性、引用準確率和格式錯誤率。

量化應該被當成服務等級策略，而不是一次性模型轉換。先確定任務類型，再決定權重、激活、KV Cache 分別用什麼精度；先做小流量影子評估，再擴大到生產。真正可靠的量化方案，不是壓得最低，而是在成本下降時清楚知道品質邊界在哪裡。