
Hello! 各位 AI 開發者大家好 👋
我是 ihower,這一期電子報跟大家分享二月底在紐約舉辦的 AI Engineer Summit。這大會的定位就是針對 AI 軟體工程師,今年的大主題就是最夯的 Agents 工程。
主辦單位已經釋出全部錄影在 Youtube 上了,總共有六十多場演講我都消化了,以下精選了我最有收穫的 16 場分享給大家。
因為全放內容會太多,以下只有我簡單的介紹。有興趣的可以點下去看我用 AI 整理後的中等長度摘要。如果覺得不夠,Facebook 留言中裡面有放完整版逐字稿跟截圖的連結,網頁我也有放一鍵 Copy 全部逐字稿,方便讓你貼去 AI 自己問。
1. Anthropic 講 Agents: Anthropic for VPs of AI
這場介紹了 Anthropic 和 Intercom 案例,以及分享了 AI 應用開發的最佳實踐與常見錯誤。
2. OpenAI 講 Agents: OpenAI for VP’s of AI + Advice for Building Agents
OpenAI 如何做企業導入,Agent 的定義和四個關鍵建議。
3. 開發 Agents 的三種挑戰: Why people think “agent” is a buzzword but it isn’t
談開發 Agent 要面臨的挑戰,以及建議的解決方式。包括以下三種挑戰:
- Agent 隨著任務複雜度增加,失敗率也會增加: 當前 Agent 很少能可靠解決超過 5 步的任務,大多數模型最多可解決 5 步任務,10 步後基本都失敗
- 工具使用的挑戰,需要處理自然語言到 API 的轉換: 自然語言的歧義、糟糕的 API 說明文件
- 上下文管理問題: planning 能力好的模型與 long-context 處理能力好的模型往往不同: 規劃是輸出密集型、長上下文是輸入密集型
4. Agents 開發的關鍵思考: How We Build Effective Agents – Barry Zhang of Anthropic
身為 AI 工程師,了解什麼時候適合 Workflow,什麼時候適合用 Agent 來開發應用是非常重要的。這場分享是基於他們去年底寫的一篇非常有名的文章: Building effective agents (必讀)。
講者提出了一個很有趣的思考練習: 想象自己是 Computer Use 的 Agent:你只能看到靜態截圖和簡單描述。無論多少思考和推理,只有工具會影響環境。嘗試點擊時,你看不到發生了什麼。當推理和工具執行時,相當於閉眼 3-5 秒在黑暗中使用電腦。睜眼後看到另一截圖,不知道剛才的操作是否有效…… 這種體驗能讓你理解 Agent 的需求和限制。
演講最後提出的三個開放問題也值得深思:
- 如何在設計 Agent 時合理考慮執行預算問題?
- 如何讓 Agents 能夠自己設計和改進使用工具的方式?例如安裝過多 MCP tools 對性能會有顯著負面影響喔
- Multi-Agents 的溝通模式:正如我在電子報中分享過的,架構越複雜往往導致更多的失敗模式,目前已發展的多代理人協作設計不會比較厲害
5. 知識競賽節目: Frontier Feud
以電視節目「Family Feud」的形式,進行了一場精彩的AI行業知識競賽。活動基於對100位AI工程師的調查結果,參賽者需要猜測這些調查問題的最熱門答案。
6. 失敗的 AI 策略: How To Build an AI Strategy That Fails
這場 Hamel Husain & Greg Ceccarelli 的題目是打造失敗的AI策略,聽起來就很好笑,內容也的確狠辣 🤣
7. 深度研究: Gemini Deep Research
話說 Deep Research 是我很感興趣的主題,我認為這是 RAG 技術發揮威力的 killer app 形式。這一場是由 Google 產品經理分享關於 Gemini 如何做 Deep Research 的分享。在我的 LLM 課程內也會探討 Deep Search 的實作。
8. CSV 案例經驗: Rethinking how we Scaffold AI Agents
重新思考如何搭建 AI 代理人。講者從經典的 The Bitter Lesson 出發,分享他們團隊在處理 CSV 轉換報表任務中,探索出的三種不同架構路線: 1. 純手工編碼 2. 傳統系統與 LLM 混合 3. 全面交由 LLM 處理。
這三種架構,其實也是所有「非結構化資料」轉換為「結構化資料」任務的架構設計思路。以前我們只有方法一,現在有方法二跟方法三。我目前在專案中採用的是混合式方法二,看了這場分享後,讓我思考可以多朝向全面 LLM 驅動的方法三邁進!
9. 語音 Agent 案例經驗: Voice Agents: the good, the bad, and the ugly
案例是做 “語音訪談 Agent”,用途是顧問公司訪談公司員工來做質化研究。基本上,各種用戶訪談也是這個形式。我覺得這種應用蠻有價值的,批次可以訪談上百人,可以節省很多 PM 的時間。
講者的開發經驗是: 把所有問題放進 system prompt 是不行的。要一次只問一題,並搭配 roadmap 介面,讓使用者可以看到進度、自由跳題。
而且為避免 LLM 不斷延伸追問,系統還需搭配一個 漂移檢測 Agent,監控對話是否偏離主題,必要時強制推進流程。
另外,OpenAI Realtime API 的語音轉錄雖方便,但在背景噪音或無聲時容易出錯,因此他們還加入了判斷轉錄品質的 Agent,來過濾錯誤內容。
10. Agents 可靠性: Building and evaluating AI Agents: Reliability
來自普林斯頓大學的 Sayash Kapoor 分享建構 AI Agents 的挑戰: 市場上許多 Agents 產品根本沒有宣稱的這麼好,實際應用時常無法可靠地重現預期結果。
這凸顯的一個 AI 領域的根本問題: 能力 Capability != 可靠性 Reliability,兩者有顯著落差。
目前 Agents 在評估時,業界普遍給的是 pass@k,也就是測試 k 次,有 1 次成功的機率!
但是這種評估方式跟終端用戶的實際體驗是脫節的,用戶根本不會測試這麼多次,真正用戶在乎的,應該是 pass^k,也就是測試 k 次每次都成功的機率! 這才是實際應用的關鍵指標。
從這個角度看,AI 工程師實質上是在從事 Reliability 工程: 我們的挑戰在於: 如何基於本質上具有隨機性的 LLM,來構建達到 99.999% 可靠性的應用系統。這不再是證明 AI 能否完成某項任務,而是確保其能在每次執行時穩定地完成任務。
研究科學家會關注的是「系統能執行的最高難度任務是什麼」,這推動了模型能力的前沿發展。然而,作為使用這些模型來打造應用的 AI 工程師,我們應該更加注重「系統能穩定、可靠完成的任務難度範圍在哪裡」。我認為這才是 AI 工程師正確的思維方式,也是將 AI Agents 從實驗室帶入實際應用的關鍵。
11. AI 產品設計: Don’t just slap on a chatbot: building AI that works before you ask
不要只是隨便加個聊天機器人: 打造無需詢問就能工作的 AI。
真的,別簡單只做聊天介面了,要主動發掘出用戶可能會問的問題跟行動,讓用戶直接確認執行就好了。
12. SQL Agent 案例: How to Build AI Agents that Actually Work
分享了一些建構 Agent 的開發經驗,講者做的案例是 SQL Agents:
- 重視推理能力勝於知識儲存
- 回應格式會影響模型處理能力
- 微調模型是浪費時間
- 自建代碼優於第三方框架
- Agent 本身不是核心競爭力,而是建立 Agent 的整體生態系統並整合進產品
- 多 Agent 系統可遵循類似亞馬遜「兩個披薩」的團隊規則,目標不應是強制 Agent 遵循固定步驟,而是激勵管理 Agent 完成總體目標,
13. AI 產品定價: The Price of Intelligence – AI Agent Pricing in 2025
這場講 AI Agent 定價策略,蠻特別的題目,探討了很多家不同的定價策略。
14. 開源模型: WTF do people use Open Models for??
這場講的是大家到底拿開源模型做什麼? 講者 Eugene 是 Featherless AI 的 CEO 和 RWKV 開源專案的共同負責人,他分享了他們平台上的用戶是如何使用開源模型的,包括和其他平台例如 OpenRouter 交換數據來補充分析。
該說不意外嗎? 個人選擇用哪一種模型,是根據個人偏好、用戶體驗和模型名氣,而非技術指標。商用則更傾向穩定且小型的模型
開源模型前四大: Deepseek、Meta Lama、Mistral Nemo 和 Qwen。所以竟然沒有 Google 的 Gemma 嗎?
15. 醫療案例分享: Mission-Critical Evals at Scale: Learnings from 100k medical decisions
建立可擴展的醫療 AI 評估系統:來自十萬次醫療決策的經驗。講者是轉型為 AI 工程師的醫生!
這是醫療場景,可以想像是不容許出錯的。美國醫療領域目前就有許多組織因不當使用 AI 自動化而被起訴。但是人工審查會有規模限制,這要如何 Scale ?
16. 評估的挑戰: Your Evals Are Meaningless And Here’s How to Fix Them
這場 talk 講了評估的標準和資料集飄移問題,如果不能反應實際情況,你的評估就沒有意義了。需要持續改進 evaluator 和 dataset 來對齊真實情況。
希望你喜歡這集內容!如果你想更有系統地掌握這些 LLM 開發技術,歡迎報名我的大語言模型 LLM 應用開發工作坊(2025升級版) 課程。也歡迎把這門課推薦給對 LLM 應用開發有興趣的朋友!