
Hello! 各位 AI 開發者大家好 👋
我是 ihower,不知不覺這是第 30 期啦,感謝你一路以來的訂閱與支持 🙏
如果喜歡輕鬆交流和分享最新消息,歡迎加入 Telegram 討論群!
🧭 A Field Guide to Rapidly Improving AI Products
Hamel Husain 分享了真正成功的 AI 團隊的六個評估迭代策略:
- 錯誤分析才是王道,別沈迷漂亮的 dashboard 通用指標
- 最重要的投資:客製化的數據檢視介面
- 讓領域專家直接寫 Prompt
- 用合成數據起步
- 保持評估系統的可信度,用二元判斷取代模糊分數
- 路線圖要數實驗,不是數功能
先建評估基礎設施,再考慮具體功能。聽起來很慢,實際上是最快的路。
❓ AI Evals 課程的 FAQ
Hamel Husain 和 Shreya Shankar 整理了他們 AI Evals 課程 的 FAQ,收集了教 700+ 工程師和 PM 後最常被問的問題。包括:
- 錯誤分析 (Error Analysis) 是王道
- 自建評估介面比現成工具好
- 二元評估 > 李克特量表(1-5分)
- RAG 沒死,只是要用對方法
- 別用現成的通用指標,這些指標對大部分 AI 應用都沒用
🕵️♀️ 什麼是錯誤分析 Error analysis ?
上兩篇都重點提到錯誤分析,我整理了一篇文章來講什麼是 AI 應用評估的錯誤分析。文長請直接看我 blog 文章。
針對沒有標準答案的問答評估(對比有標準答案的是指單選、多選等有固定答案),這裏不同於常見的 G-Eval 評估方式採用正面表列,根據你的 Criteria 做評估量測打分(例如1~5分有多符合)。
這裏教的方法是先做錯誤分析,拿到具體的負面表列後,後續再針對 “每一種” 失敗模式都來做評估量測和改進。



