ihower { blogging }

Agent 讓 RAG 過時了嗎? 談 AI Coding 的檢索策略

看了一場 Augment Code (也是一家做 AI IDE 的廠商) 來講 “Agentic 檢索” 對比 “傳統 RAG 檢索” 的演講，蠻有啟發的。
在 AI Coding 領域，簡單的工具正在擊敗複雜的 RAG 系統。

AI Coding 的演進歷程

AI Coding 的演進是這樣:

2023: Code completion 補全時代，例如 Github Copilot
2024: 出現側欄 chatbot 來寫這個檔案的 code
2025: 進到 Agent 時代，例如 Claude Code 可以跨多個檔案寫 code

隨著每次演進，IDE 底層檢索的複雜度越來越高。我們知道 LLM 需要正確的 context 才能良好運作(也就是 context engineering)，因為需要設計一套檢索系統，找出當下模型所需要參考的程式碼。
像 code completion 只需要超低延遲的簡單檢索即可，chatbot 時代需要理解更複雜的抽象問題，而 agent 就必須理解整個專案的許多不同部分。

他們對 AI Coding 領域的驚人發現是: 簡單的工具就夠了，Augment 團隊在 SWE-Bench 拿下第一名，論文中寫道:「我們探索了新增各種基於嵌入的檢索工具，但發現對於 SWE-Bench 任務來說，這並不是瓶頸。用 grep 和 find 工具就足夠了」。

近期很夯的 Claude Code、OpenAI Codex、Gemini CLI 也通通沒有用 embedding 模型來做檢索。
程式碼檢索為什麼 grep/find 就夠用? 因為程式碼有很多高訊號的關鍵字詞彙，這些結構化的關鍵字讓 grep 搜尋變得非常有效。

閱讀全文

如何管理 AI 專案? AI PM 從確定性工程到應用研究

最近看了幾篇討論 AI 產品經理和 AI 專案管理的內容，最有感的是這句話:「傳統軟體開發是確定性的，但 AI 開發本質上是應用研究」，這根本性的差異改變了一切。

為什麼傳統路線圖 (Product Roadmap) 會失敗？

傳統 PM 會說「我們 9/21 要發布這個 AI 功能」，但問題是：你怎麼為還沒被發現的東西制定 Roadmap？這就像在地圖還沒畫出來的時候就規劃路線一樣荒謬。

AI 開發更像科學研究：

進度不是線性的（可能好幾週沒進展，然後突然有突破）
成功不是保證的（有時數學本身就不支持你的產品目標）
關鍵指標是學習速度，而非開發速度

舉個例子：你想做一個「減少模型幻覺」的功能。在傳統開發中，這可能是個明確的工單。但在 AI 開發中，這是個開放性研究問題，你甚至不知道是否能完全解決。

閱讀全文

愛好 AI Engineer 電子報 🚀 什麼是 AI Evals 錯誤分析 #30

歡迎訂閱 📬 愛好 AI Engineer 電子報過往期數點這 📚

Hello! 各位 AI 開發者大家好 👋

我是 ihower，不知不覺這是第 30 期啦，感謝你一路以來的訂閱與支持 🙏

如果喜歡輕鬆交流和分享最新消息，歡迎加入 Telegram 討論群！

🧭 A Field Guide to Rapidly Improving AI Products

Hamel Husain 分享了真正成功的 AI 團隊的六個評估迭代策略:

錯誤分析才是王道，別沈迷漂亮的 dashboard 通用指標
最重要的投資：客製化的數據檢視介面
讓領域專家直接寫 Prompt
用合成數據起步
保持評估系統的可信度，用二元判斷取代模糊分數
路線圖要數實驗，不是數功能

先建評估基礎設施，再考慮具體功能。聽起來很慢，實際上是最快的路。

❓ AI Evals 課程的 FAQ

Hamel Husain 和 Shreya Shankar 整理了他們 AI Evals 課程的 FAQ，收集了教 700+ 工程師和 PM 後最常被問的問題。包括:

錯誤分析 (Error Analysis) 是王道
自建評估介面比現成工具好
二元評估 > 李克特量表(1-5分)
RAG 沒死，只是要用對方法
別用現成的通用指標，這些指標對大部分 AI 應用都沒用

🕵️‍♀️ 什麼是錯誤分析 Error analysis ?

上兩篇都重點提到錯誤分析，我整理了一篇文章來講什麼是 AI 應用評估的錯誤分析。文長請直接看我 blog 文章。

針對沒有標準答案的問答評估(對比有標準答案的是指單選、多選等有固定答案)，這裏不同於常見的 G-Eval 評估方式採用正面表列，根據你的 Criteria 做評估量測打分(例如1~5分有多符合)。
這裏教的方法是先做錯誤分析，拿到具體的負面表列後，後續再針對 “每一種” 失敗模式都來做評估量測和改進。

閱讀全文

什麼是 AI 應用評估的錯誤分析 Error Analysis?

最近在上 Hamel + Shreya 的 AI Evals For Engineers & PMs 課程，這應該是市面上最深入探討 AI 應用評估的課程了。以下根據網上有公開的內容，整理一篇精華內容(大約是課程的前1/4內容)。

如果你正在開發 AI 應用，應該都遇過這種情況：產品做出來了，看起來還行，但總覺得哪裡怪怪的。使用者抱怨一些奇怪的問題，但你不知道從何改起。這篇文章要介紹的就是評估和錯誤分析 Error Analysis 系統性方法。

閱讀全文

愛好 AI Engineer 電子報 🚀 新技能組合 Context Engineering 上下文工程 #29

歡迎訂閱 📬 愛好 AI Engineer 電子報過往期數點這 📚

Hello! 各位 AI 開發者大家好 👋

我是 ihower，這一期電子報的內容依然非常豐富，好內容太多可以寫。我的分享大多會首發在 Facebook 上，如果不怕吵想第一時間收到通知，可以加入我的 Facebook 廣播頻道。

🔍 什麼是 Context Engineering 上下文工程?

Context Engineering 這個詞最近在 AI 技術圈被提出，能更廣泛統稱所有 Context 的動態管理。這篇文長有很多引用出處，請至我的 Blog 看全文。

更多討論在我 Facebook 貼文。

🧑‍🚀 大神 Andrej Karpathy 的最新演講 Software Is Changing 影片

大神 Andrej Karpathy 的最新演講 Software Is Changing (Again)

軟體正在經歷 70 年來最根本的變化: 軟體進化三階段
LLM = 新作業系統
允許可以部分自主的 Agent 應用
軟體設計要服務三種用戶: 人類（GUI）+ 程式（API）+ AI Agent（新介面）
這是軟體史的關鍵轉折點

除了看影片，也可以看我的逐字稿截圖整理，這個網頁的用法是: 1. 直接用沈浸式網頁翻譯 2. 或是右上角我有做 Copy Transcript 可以複製回去，給你的 AI 用你喜歡的方式整理出你想要的內容，例如這我用 Claude 整理後變成的文章。

更多討論在我 Facebook 貼文。

閱讀全文

什麼是 Context Engineering 上下文工程?

歡迎訂閱 📬 愛好 AI Engineer 電子報過往期數點這 📚

Context Engineering 這個詞最近在 AI 技術圈被提出，包括 Tobi Lütke (Shopify CEO)、大神 Andrej Karpathy、Harrison Chase (LangChain 創辦人) 、Jerry Liu (Llamaindex 創辦人)、Simon Willison 等大大都在討論+1。過去大家熟知的是 Prompt Engineering，但現在發現這詞已經不夠涵蓋目前大家在做的事情，而且更多人誤認為這只是撰寫靜態的提示詞而已，而忽略了背後所需要的工程技術。技術社群需要一個新術語能更廣泛統稱所有 Context 的動態管理，包括 System/User prompt、RAG、Memory、Tool Calling、結構化輸出、Agent、Multi-Agents 等等。

什麼是 Context Engineering?

開發 AI 應用需要建構一個系統，動態根據當前任務和狀態，提供正確的資訊和工具給 LLM 大模型，讓它有足夠的條件完成任務，這就叫做 Context Engineering 上下文工程。

Tobi Lütke (Shopify CEO) 說：「我真的喜歡 context engineering 這個詞勝過 prompt engineering。它更好地描述了核心技能: 提供所有上下文讓 LLM 能合理解決任務的藝術。」

LangChain 在 “The rise of “context engineering” 文章中說：「Context engineering 是建構動態系統，以正確的格式提供正確的資訊和工具，使 LLM 能夠合理地完成任務。」

Andrej Karpathy 說: 「LLM 就像新型作業系統，模型是 CPU，而 Context window 就是 RAM。Context engineering 是精巧地把對的資訊在對的時機塞進 context window 的微妙藝術與科學。」

閱讀全文