愛好 AI Engineer 電子報 🚀 什麼是 AI Evals 錯誤分析 #30

歡迎訂閱 📬 愛好 AI Engineer 電子報過往期數點這 📚

Hello! 各位 AI 開發者大家好 👋

我是 ihower，不知不覺這是第 30 期啦，感謝你一路以來的訂閱與支持 🙏

如果喜歡輕鬆交流和分享最新消息，歡迎加入 Telegram 討論群！

🧭 A Field Guide to Rapidly Improving AI Products

Hamel Husain 分享了真正成功的 AI 團隊的六個評估迭代策略:

錯誤分析才是王道，別沈迷漂亮的 dashboard 通用指標
最重要的投資：客製化的數據檢視介面
讓領域專家直接寫 Prompt
用合成數據起步
保持評估系統的可信度，用二元判斷取代模糊分數
路線圖要數實驗，不是數功能

先建評估基礎設施，再考慮具體功能。聽起來很慢，實際上是最快的路。

❓ AI Evals 課程的 FAQ

Hamel Husain 和 Shreya Shankar 整理了他們 AI Evals 課程的 FAQ，收集了教 700+ 工程師和 PM 後最常被問的問題。包括:

錯誤分析 (Error Analysis) 是王道
自建評估介面比現成工具好
二元評估 > 李克特量表(1-5分)
RAG 沒死，只是要用對方法
別用現成的通用指標，這些指標對大部分 AI 應用都沒用

🕵️‍♀️ 什麼是錯誤分析 Error analysis ?

上兩篇都重點提到錯誤分析，我整理了一篇文章來講什麼是 AI 應用評估的錯誤分析。文長請直接看我 blog 文章。

針對沒有標準答案的問答評估(對比有標準答案的是指單選、多選等有固定答案)，這裏不同於常見的 G-Eval 評估方式採用正面表列，根據你的 Criteria 做評估量測打分(例如1~5分有多符合)。
這裏教的方法是先做錯誤分析，拿到具體的負面表列後，後續再針對 “每一種” 失敗模式都來做評估量測和改進。

🧠 How Long Contexts Fail and How to Fix

雖然模型支援越來越長的 Long Context，但更長的上下文不等於更好的回應，作者總結了四種失敗模式:

上下文中毒: 幻覺錯誤進入上下文後被反覆引用。例如 Gemini 玩寶可夢時產生錯誤遊戲狀態，導致 AI 執著於不可能的目標
上下文分心: 上下文太長時，模型過度依賴歷史記錄而忽略訓練知識。研究發現超過 100k tokens 後，Agent 開始重複過去行為而非產生新策略
上下文混亂: 無關資訊影響模型產生低品質回應。Berkeley 功能呼叫評測顯示，所有模型在提供多個工具時表現都會下降
上下文衝突: 新資訊與既有資訊產生矛盾。微軟研究顯示，將提示分段輸入比一次性輸入平均下降 39% 效能

作者也分享了How to Fix 解決方案，包括 RAG 選擇性加載、工具動態選擇、上下文隔離、修剪無關資訊等技巧。

⚙️ Manus 的 AI Agent 上下文工程經驗

最近搬去新加坡的 Manus 團隊分享了他們的 Agent 開發實戰經驗，有不少獨到的觀點，非常值得一讀，包括:

KV-Cache (Prompt快取) 命中率是 Production 環境的 AI Agent 最重要的指標，要盡可能確保 context 的 prefix 部分不變，這會直接影響成本差了10倍
工具選擇太多會讓 Agent 變笨，可以設計狀態機來動態決定當下可用哪些工具。但是要避免動態改變工具列表 schema，因為這會破壞 Prompt 快取，而是用遮罩 logits 讓模型不要選特定的工具
使用檔案系統當成無限的外部記憶體，減少 context 佔用，避免截斷或壓縮。例如使用網頁抓取工具時，不要將結果全文塞回 context，而是寫入檔案，然後讓 Agent 自己用工具再去讀檔案，context 中只需預設保留 URL 即可。

編按: 這段寫不是很清楚它是怎麼做的，以下是我腦補可能的讀取方式: 例如配置 grep 工具，讓 Agent 查找讀取部分段落，或是更進階用 sub-agent 工具去讀檔案，然後 sub-agent 只擷取回傳相關的段落給 lead agent 放到 context 之中，如此可以大幅降低主 context 的佔用

用 todo.md 來操控注意力，不斷重寫待辦清單放到 context 最後
context 中保留錯誤的路徑，避免重複犯錯
few-shot 要有多樣性，避免過度一致的範例

如此重視快取命中率，是我之前沒想過的，但想想也非常有道理，Agent 的 tokens 成本控制太重要了，因為整個對話串會很長啊!

更多討論在我 Facebook 貼文。

🏅 Galileo Agent Leaderboard v2

Galileo Labs 發佈了 Agent Leaderboard v2 評測，不只測試 Agent 能不能呼叫對的工具，而是模擬真實企業場景，評估 AI 在多輪對話中處理複雜決策和完成實際任務的能力。
評測涵蓋五大關鍵產業：銀行、醫療、投資、電信和保險。每個測試場景都精心設計，包含 5-8 個相互關聯的用戶目標，真實反映企業環境中的任務複雜度。

他們測量兩個核心指標:

Action Completion (AC): 行動完成度，Agent 是否真正完成了用戶的每個目標？
Tool Selection Quality (TSQ): 工具選擇品質，Agent 是否選擇了正確的工具並正確使用？

最新結果顯示，GPT-4.1 以平均 62% 的 Action Completion 分數位居榜首，每次對話成本為 0.068 美元。

令人意外的是，推理模型在此評測中表現不佳。推測原因在於企業場景更重視執行效率而非深度分析，推理模型可能因過度思考反而降低了任務完成效率。
這提醒我們選擇 AI 模型應優先考量實際應用需求，雖然推理模型在學術測試中表現卓越，但面對日常商業任務時，簡單直接的執行力可能更具實效。

📊 LLM Benchmark 快速解釋

Xeophon 介紹了各種 AI 評測基準，很多人看到模型排行榜上的分數，但其實不太清楚這些數字代表什麼意義。

拿 GPQA 來說，這是目前最熱門的評測之一，設計得很精良，但重點是它只測「生物、物理、化學」三個領域。如果你以為 GPQA 高分就代表模型什麼都懂，那就誤會大了。

類似的還有 LiveCodeBench，會定期更新題目保持新鮮度，但現在的 LLM 對簡單的程式題目已經太輕鬆了，基本上 easy/medium 的 LeetCode 題目已經難不倒它們。

看 AI benchmark 要小心，不是分數高就代表全能。每個評測都有它的設計目的和侷限性，了解背後的細節才能正確解讀模型的真實能力。

🔥 Temperature 一定要設 0 嗎？

使用 LLM 時的一個關鍵迷思是 Temperature 到底該不該設為 0 ?
很多人會說「穩定最重要，直接把 temperature 設成 0 吧！」，理由不外乎是: 降低幻覺、保證可重現、效果最好。但作者認為這可能是 LLM 使用上最大的誤解之一。

作者 Oscar 從 LLM decoding 機制講起，破解了三大迷思:

迷思1: Temperature=0 能有效降低幻覺。實際上 temperature>1 時確實會增加幻覺，但在 temperature<1 的範圍內，並不保證越小越好。關鍵在於: Greedy decoding 容易陷入重複循環，會偏向輸出訓練資料中最常見的答案，但網路上最正確的資訊往往不是最常出現的，在 RAG 場景中，可能會讓模型過度依賴內部知識而忽略 context
迷思2: Temperature=0 才能每次得到相同結果。這個邏輯有根本性錯誤。現代電腦的「隨機」其實是偽隨機數，只要控制 random seed 就能重現。所以 OpenAI 提供的是 seed 參數，而不是要求你設 temperature=0。
迷思3: Temperature=0 效果最好。大量研究顯示 greedy decoding 容易出現嚴重的自我重複問題、局部最優但非全域最優、與人類語言組織方式差異過大。人類在組織語言時，經常會使用從 LLM 角度看來是「低機率」的詞彙，因為我們會深思熟慮選擇更精確的表達。

最後建議把 temperature 當作 hyperparameter 來調整，基於具體任務做實驗，大多數模型官方推薦的設定是 temperature=0.6, top_p=0.9。可以嘗試新興的 Min-p sampling 方法。
建議有評估的流程，透過實驗找出最佳設定，而不是無腦設定 temperature=0。

🛠️ 如何正確設計 tools 來提升 Agent performance

和上篇同樣來自 Oscar 的文章，這篇講述了設計 edit tool 的來龍去脈故事，非常精彩。

第一代 Whole editing: 讓 LLM 直接重新生成整份 code
第二代 diff & patch: 使用 Linux 原生的 diff 和 patch 指令
第三代 improved tools: 各大廠針對 diff 的問題做了各種改進

光有更強的 LLM 是不夠的，要搭配好的 tool 設計才能發揮最大效果。這些改進在 SWE-Bench Verified 上能帶來 6-8% 的提升。

🎓 2025 年如何自學 LLM

連續推薦 Oscar 的文章，他分享了他建議的 LLM 自學清單。Oscar 認為如果真的把這些內容學透，絕對比市面上過半年薪100~200萬的 junior LLM engineer 還要懂 LLM，面試絕對沒問題。
現在科技業出現一個奇特現象，2021-2022年入職的老員工現在連面試都過不了，而2023年入職的同事普遍也比不上現在比較強的新人，所以必須持續學習才不會被技術浪潮淘汰。

希望你喜歡這集內容！如果你想更有系統地掌握 Context Engineering 技術，歡迎報名我的大語言模型 LLM 應用開發工作坊課程。也歡迎把這門課推薦給對 LLM 應用開發有興趣的朋友！

– ihower

愛好 AI Engineer 電子報 🚀 什麼是 AI Evals 錯誤分析 #30

🧭 A Field Guide to Rapidly Improving AI Products

❓ AI Evals 課程的 FAQ

🕵️‍♀️ 什麼是錯誤分析 Error analysis ?

🧠 How Long Contexts Fail and How to Fix

⚙️ Manus 的 AI Agent 上下文工程經驗

🏅 Galileo Agent Leaderboard v2

📊 LLM Benchmark 快速解釋

🔥 Temperature 一定要設 0 嗎？

🛠️ 如何正確設計 tools 來提升 Agent performance

🎓 2025 年如何自學 LLM

請按讚：

發佈留言

發表迴響取消回覆

🧭 A Field Guide to Rapidly Improving AI Products

❓ AI Evals 課程的 FAQ

🕵️‍♀️ 什麼是錯誤分析 Error analysis ?

🧠 How Long Contexts Fail and How to Fix

⚙️ Manus 的 AI Agent 上下文工程經驗

🏅 Galileo Agent Leaderboard v2

📊 LLM Benchmark 快速解釋

🔥 Temperature 一定要設 0 嗎？

🛠️ 如何正確設計 tools 來提升 Agent performance

🎓 2025 年如何自學 LLM

分享此文：

請按讚：

發佈留言

發表迴響取消回覆