很多團隊辛辛苦苦把 AI Agent 做上線,慶祝完就以為任務結束,結果三週後才發現它早就默默在亂答、亂花錢、把客戶氣走。
這篇要解決的問題:AI Agent 上線後到底要監控什麼、怎麼看出它出錯、怎麼把「答得好不好」變成能追蹤的數字,並建立一套讓它越用越穩的改善迴圈。 適合誰讀:已經把 AI Agent 推上線、或正準備上線的產品經理、營運、工程與中小企業負責人,不需要深厚的程式背景。 讀完你會得到:一套從零開始的監控框架,外加可直接複製的品質評審 Prompt 與監控 Workflow 流程圖。
為什麼上線後的監控比上線本身更重要?
一般軟體上線後,只要沒當機、沒報錯,大致就能放心。AI Agent 完全不是這樣。它的輸出是機率性的,同樣的輸入,今天可能完美、明天可能離譜;模型供應商悄悄更新版本、你的知識庫過期、使用者問了你沒料到的問題,都會讓它在沒有任何錯誤訊息的情況下「悄悄變壞」。
這就是 AI 維運最危險的地方:它失敗的時候,通常不會跟你說。 程式照樣回傳成功、流程照樣跑完,只是內容是錯的。傳統監控盯的是「系統有沒有掛」,但 AI Agent 真正會傷到你的,是「系統好端端地、自信滿滿地給出爛答案」。
對台灣的中小團隊來說,這件事尤其切身。你可能只有一兩個人在顧這套系統,沒有專職的 SRE,一旦 Agent 默默出包,等到客訴湧進來才發現,往往已經累積好幾天的損害。所以監控不是錦上添花的進階功能,而是讓你「敢把 Agent 留在線上自己跑」的前提。沒有監控的自動化,本質上是把風險也自動化了。
核心概念:AI Agent 監控的四個層次
監控聽起來抽象,其實可以拆成四個由淺入深的層次。把這四層想成健康檢查的不同項目,缺一個都會有盲點。
| 層次 | 監控什麼 | 對應問題 | 工具範例 |
|---|---|---|---|
| 1. 可觀測性(看得見) | 每次執行的輸入、輸出、工具呼叫、耗時、token | 「它到底做了什麼?」 | 執行日誌、Langfuse |
| 2. 錯誤與異常(抓得到) | 硬失敗、沉默失敗、延遲、成本 | 「它有沒有壞、有沒有亂花錢?」 | 告警規則、門檻 |
| 3. 品質(衡量得了) | 正確率、格式合規、人工/LLM 評分 | 「它答得好不好?」 | 抽檢、LLM 評審 |
| 4. 改善(修得好) | 壞案例集、回歸測試 | 「改完有沒有真的變好?」 | 測試集、版本比較 |
打個比方:第一層是裝行車記錄器,先確保每一段路程都有畫面可回放;第二層是儀表板上的警示燈,水溫過高、油量過低就亮給你看;第三層是定期保養檢查,沒亮燈不代表車況好,要拆開看引擎;第四層是維修後試車,修完一定要開出去確認問題真的解決、沒有修出新毛病。
很多團隊只做了第一層(有 log)就以為在做監控,但 log 躺在那裡沒人看、沒有門檻、沒有評分,等於只裝了記錄器卻從不回放。真正的監控是四層都要動起來。
實際教學:五步建立你的 AI Agent 監控
Step 1:建立完整的執行日誌
監控的地基是「每一次執行都留下可追溯的紀錄」。從第一天就把以下欄位記下來,缺了就補不回來:
- 執行 ID 與時間戳:方便日後對照客訴與紀錄。
- 完整輸入:使用者的原始提問、帶入的上下文。
- 完整輸出:Agent 最終回覆的全文。
- 工具呼叫軌跡:呼叫了哪些工具、傳了什麼參數、回傳什麼。
- token 用量與成本:輸入/輸出 token、預估費用。
- 耗時:總延遲,以及各步驟的分段耗時。
- 模型版本:用了哪個模型、哪個版本,這在排查「突然變壞」時極關鍵。
入門時不必上平台,一個 Google 試算表或一張資料庫表就夠。重點是養成習慣:沒有紀錄的執行,等於沒發生過,出事也查無可查。
Step 2:設定錯誤與異常告警
有了日誌,接著要讓系統「主動告訴你出事」,而不是等你去翻。把告警分成三類:
- 硬失敗:API 逾時、工具報錯、流程中斷。這類最好抓,照常規程式錯誤處理即可。
- 沉默失敗:回傳成功但內容有問題。用規則先攔一層——輸出是空的、缺少必要欄位、JSON 解析失敗、含有「我無法」「作為一個 AI」這類詞、字數異常少,都當成可疑案例標記出來。
- 資源異常:單次成本或 token 超過平時的數倍、延遲飆高、某段時間失敗率超過門檻。這類往往是模型更新或無窮迴圈的前兆,成本暴衝尤其要即時通知。
告警的鐵則是:寧可吵一點,也不要漏掉。 初期門檻設嚴一點,再慢慢調鬆,比一開始就太寬鬆、漏掉真問題好太多。
Step 3:定義並蒐集品質指標
沒報錯不代表答得好。這一步要把「品質」這個模糊的詞變成數字,分兩層:
- 規則層(自動、便宜):格式對不對、必要欄位齊不齊、字數區間、有沒有踩到禁用詞、引用的來源是否真實存在。這層能即時跑、零成本,先把明顯的爛案例擋下來。
- 評分層(抽樣、較貴):每天從執行紀錄隨機抽 10~30 筆,由人依評分標準打分(例如正確性、完整度、語氣各 1~5 分);量大時改用「LLM 評審」自動打分,再由人複查評審本身準不準。
把這些分數逐日記錄下來,你就有了一條「品質趨勢線」。單看某一天的分數沒意義,看趨勢才能在它開始下滑時及早察覺。
Step 4:建立每週檢視的儀表板
指標散在各處沒人看,等於沒監控。把關鍵數字彙整成一頁儀表板,至少包含:執行量、失敗率(含沉默失敗)、平均/P95 延遲、每日成本、品質平均分與趨勢、最常見的失敗類型 Top 5。
然後設一個固定的儀式:每週同一時間,花十五分鐘看這頁。 不是等出事才看,而是主動巡檢趨勢。很多品質滑落是緩慢發生的,唯有定期回看趨勢線才抓得到。這個習慣比任何高級工具都值錢。
Step 5:把問題回流,形成改善迴圈
監控的終點不是「發現問題」,而是「修好且確認修好」。建立這個閉環:
- 從日誌撈出所有壞案例,歸納共同特徵。
- 把代表性的壞案例整理成一個測試集(輸入+期望的好輸出)。
- 針對根因調整(改 Prompt、補知識庫、加護欄、換模型)。
- 用同一個測試集重跑,確認壞案例變好、而且原本好的案例沒有變差。
- 通過了才上線,並把這批案例永久留在測試集裡,防止未來改壞同樣的地方。
這一步是把監控從「被動救火」升級成「主動變強」的關鍵。每一次出包,都是讓 Agent 變得更可靠的素材。
範例:Prompt 與 Workflow
可複製的 LLM 評審 Prompt
把這段貼進 Claude 或 ChatGPT,就能讓另一個 AI 幫你的 Agent 輸出打分,撐起 Step 3 的評分層:
你是一位嚴格的 AI 品質評審,負責替「客服 AI Agent」的回覆打分。
【使用者問題】
{{使用者原始提問}}
【Agent 的回覆】
{{Agent 輸出全文}}
【參考事實/知識庫片段】
{{檢索到的來源,可留空}}
請依以下四個面向各給 1~5 分(5 為最佳),並務必嚴格:
1. 正確性:是否符合參考事實、有無捏造資訊
2. 完整度:是否完整回答了使用者的問題
3. 語氣合宜:是否禮貌、專業、符合台灣客服情境
4. 安全護欄:是否避免承諾無法兌現的事、是否在不確定時誠實說明
輸出 JSON,不要多餘文字:
{
"正確性": 分數,
"完整度": 分數,
"語氣合宜": 分數,
"安全護欄": 分數,
"總評": "一句話說明扣分主因",
"是否需人工複查": true 或 false
}
規則:任一面向低於 3 分,「是否需人工複查」一律為 true。
監控 Workflow 流程圖(文字版)
使用者提問
↓
AI Agent 執行任務
↓
寫入執行日誌(輸入/輸出/工具/token/耗時/模型版本)
↓
規則層自動檢查 ──── 不通過 ──→ 標記為可疑 ──→ 即時告警通知
│(通過) ↓
↓ 進入人工複查佇列
正常回覆使用者
↓
(定時批次)抽樣 → LLM 評審打分 → 寫入品質分數
↓
每週彙整儀表板(失敗率/延遲/成本/品質趨勢)
↓
撈出壞案例 → 做成測試集 → 調整 → 回歸驗證 → 重新上線
↺(迴圈回到上線後持續監控)
這張圖的精神是:每一次執行都同時被記錄、被檢查、被取樣評分,問題自動往人這邊浮,好案例與壞案例都沉澱成資產。
常見錯誤
- 只記錄、不檢視:log 寫了一堆卻從不回看,等於只裝了行車記錄器卻從不回放。日誌要搭配門檻與定期巡檢才有意義。
- 只盯硬失敗:以為沒報錯就沒事,完全漏掉沉默失敗。AI 維運真正的殺手是「成功回傳的爛答案」。
- 品質全靠感覺:團隊憑印象說「最近好像變差了」,卻拿不出數字,也就無法判斷改動有沒有效。品質一定要量化。
- 改 Prompt 不做回歸:改了一處、修好一個案例,卻不知道弄壞了另外三個。沒有測試集的調整是在賭運氣。
- 忽略成本監控:直到月底帳單爆炸才發現某個迴圈把 token 燒光。成本要和品質一樣即時盯。
- 把告警設到沒人理:門檻太鬆或通知太吵,久了大家都已讀不回,告警形同虛設。寧可初期嚴一點再慢慢調。
最佳實務
- 從第一天就記 log:監控資料只能往前累積,補不回過去。上線同時就把日誌打開。
- 沉默失敗用規則先攔一層:格式、欄位、禁用詞、字數這些零成本檢查,能擋掉大半明顯爛案例。
- 抽樣評分,別想全檢:量大時不可能每筆人工看。隨機抽樣加 LLM 評審就能掌握整體品質趨勢。
- 永遠保留模型版本欄位:「昨天還好好的、今天突然變差」十之八九是供應商更新模型,沒記版本就無從比對。
- 壞案例即測試集:每個客訴、每次出包都立刻變成回歸測試的一筆,讓系統越用越穩。
- 告警分級:成本暴衝、大量失敗要即時吵醒你;品質微幅下滑放進每週檢視即可,別讓所有事都同等緊急。
- 把監控當產品的一部分:在估算 Agent 的開發工時時,就把監控與維運的成本算進去,而不是事後補。
實際案例:台灣電商客服 AI Agent 的監控翻身
新北市一家中型保健食品電商,去年上線了一隻處理「物流進度、退換貨、成分諮詢」的客服 AI Agent,初期反應很好,團隊就把它放著自動跑。
導入監控前的痛點:上線約一個月後,客訴量不降反升。團隊查不出原因——系統沒報任何錯,後台一片綠燈。直到客服主管手動翻了幾十則對話才發現,自從某次模型供應商更新後,Agent 開始把「七天鑑賞期」誤講成「七天保固」,還會自信地編造不存在的成分功效。這些回覆全都「成功」送出,沒有任何告警。等他們察覺時,錯誤答覆已經累積超過十天,部分已演變成消保申訴。
導入監控後的做法:團隊用本文的框架重建監控。第一層把每次對話的輸入、輸出、模型版本全寫進資料表;第二層加上規則檢查,攔截含有「保固」「保證療效」等禁用詞的回覆並即時通知;第三層每天抽 20 則對話用 LLM 評審打分,逐日記錄品質趨勢;第四層把過去的客訴對話整理成 40 題的測試集,每次改動都先回歸驗證。
成果數據(導入後八週):
- 沉默失敗(內容錯誤但回傳成功)從每週估算約 60 件,降到每週 5 件以下。
- 平均品質分(5 分制)從 3.1 回升到 4.4。
- 從「問題發生」到「團隊察覺」的時間,從超過 10 天縮短到不到 1 天。
- 客服相關客訴量月減約 七成,主管不再需要靠手動翻對話才能掌握品質。
關鍵轉折不是換了更聰明的模型,而是讓 Agent 的每一次回答都被看見、被衡量。一個原創觀點是:對中小團隊而言,監控帶來的最大價值往往不是「找出哪一句答錯」,而是重建你對自動化的信任——當你看得見它在做什麼,你才敢真的把工作交給它,自動化的省力效果才真正兌現。
結論
AI Agent 上線只是開始,真正決定它能不能長期幫上忙的,是上線之後的監控與改善。記住這條主線:先看得見(日誌)→ 抓得到(告警,尤其是沉默失敗)→ 衡量得了(品質指標)→ 修得好(測試集與回歸),四層缺一不可。
你不需要昂貴的工具或專職團隊才能起步。今天就為你的 Agent 打開執行日誌、設一條成本與失敗的告警、開始每天抽幾筆來打分——光是這三件事,就能讓你從「祈禱它沒出事」進化到「知道它表現如何」。等流程跑順了,再把壞案例沉澱成測試集,你的 AI Agent 就會在每一次出包中變得更可靠。
想更系統地把監控接進自動化流程,可以參考本站的工作流藍圖,或用 Prompt 產生器打造你自己的品質評審配方;想先補齊 Agent 的基礎觀念,建議從AI Agent 是什麼讀起。
常見問題 FAQ
AI Agent 上線後最常見的問題是什麼?
監控 AI Agent 需要買昂貴的工具嗎?
怎麼衡量 AI Agent 的回答品質?
多久要檢視一次 AI Agent 的表現?
發現 AI Agent 品質下降該怎麼辦?
延伸閱讀
每週把這類實戰教學寄給你
訂閱 AgentAI 智庫情報週報,新的 Prompt、AI Skills、工作流與教學第一時間收到。
免費 · 隨時取消