愛好 AI Engineer 電子報 🚀 紐約 AI Engineer Summit 特輯 #26

Hello! 各位 AI 開發者大家好 👋

我是 ihower，這一期電子報跟大家分享二月底在紐約舉辦的 AI Engineer Summit。這大會的定位就是針對 AI 軟體工程師，今年的大主題就是最夯的 Agents 工程。

主辦單位已經釋出全部錄影在 Youtube 上了，總共有六十多場演講我都消化了，以下精選了我最有收穫的 16 場分享給大家。

因為全放內容會太多，以下只有我簡單的介紹。有興趣的可以點下去看我用 AI 整理後的中等長度摘要。如果覺得不夠，Facebook 留言中裡面有放完整版逐字稿跟截圖的連結，網頁我也有放一鍵 Copy 全部逐字稿，方便讓你貼去 AI 自己問。

1. Anthropic 講 Agents: Anthropic for VPs of AI

這場介紹了 Anthropic 和 Intercom 案例，以及分享了 AI 應用開發的最佳實踐與常見錯誤。

2. OpenAI 講 Agents: OpenAI for VP’s of AI + Advice for Building Agents

OpenAI 如何做企業導入，Agent 的定義和四個關鍵建議。

3. 開發 Agents 的三種挑戰: Why people think “agent” is a buzzword but it isn’t

談開發 Agent 要面臨的挑戰，以及建議的解決方式。包括以下三種挑戰:

Agent 隨著任務複雜度增加，失敗率也會增加: 當前 Agent 很少能可靠解決超過 5 步的任務，大多數模型最多可解決 5 步任務，10 步後基本都失敗
工具使用的挑戰，需要處理自然語言到 API 的轉換: 自然語言的歧義、糟糕的 API 說明文件
上下文管理問題: planning 能力好的模型與 long-context 處理能力好的模型往往不同: 規劃是輸出密集型、長上下文是輸入密集型

4. Agents 開發的關鍵思考: How We Build Effective Agents – Barry Zhang of Anthropic

身為 AI 工程師，了解什麼時候適合 Workflow，什麼時候適合用 Agent 來開發應用是非常重要的。這場分享是基於他們去年底寫的一篇非常有名的文章: Building effective agents (必讀)。

講者提出了一個很有趣的思考練習: 想象自己是 Computer Use 的 Agent：你只能看到靜態截圖和簡單描述。無論多少思考和推理，只有工具會影響環境。嘗試點擊時，你看不到發生了什麼。當推理和工具執行時，相當於閉眼 3-5 秒在黑暗中使用電腦。睜眼後看到另一截圖，不知道剛才的操作是否有效…… 這種體驗能讓你理解 Agent 的需求和限制。

演講最後提出的三個開放問題也值得深思:

如何在設計 Agent 時合理考慮執行預算問題？
如何讓 Agents 能夠自己設計和改進使用工具的方式？例如安裝過多 MCP tools 對性能會有顯著負面影響喔
Multi-Agents 的溝通模式：正如我在電子報中分享過的，架構越複雜往往導致更多的失敗模式，目前已發展的多代理人協作設計不會比較厲害

5. 知識競賽節目: Frontier Feud

以電視節目「Family Feud」的形式，進行了一場精彩的AI行業知識競賽。活動基於對100位AI工程師的調查結果，參賽者需要猜測這些調查問題的最熱門答案。

6. 失敗的 AI 策略: How To Build an AI Strategy That Fails

這場 Hamel Husain & Greg Ceccarelli 的題目是打造失敗的AI策略，聽起來就很好笑，內容也的確狠辣 🤣

7. 深度研究: Gemini Deep Research

話說 Deep Research 是我很感興趣的主題，我認為這是 RAG 技術發揮威力的 killer app 形式。這一場是由 Google 產品經理分享關於 Gemini 如何做 Deep Research 的分享。在我的 LLM 課程內也會探討 Deep Search 的實作。

8. CSV 案例經驗: Rethinking how we Scaffold AI Agents

重新思考如何搭建 AI 代理人。講者從經典的 The Bitter Lesson 出發，分享他們團隊在處理 CSV 轉換報表任務中，探索出的三種不同架構路線: 1. 純手工編碼 2. 傳統系統與 LLM 混合 3. 全面交由 LLM 處理。

這三種架構，其實也是所有「非結構化資料」轉換為「結構化資料」任務的架構設計思路。以前我們只有方法一，現在有方法二跟方法三。我目前在專案中採用的是混合式方法二，看了這場分享後，讓我思考可以多朝向全面 LLM 驅動的方法三邁進!

9. 語音 Agent 案例經驗: Voice Agents: the good, the bad, and the ugly

案例是做 “語音訪談 Agent”，用途是顧問公司訪談公司員工來做質化研究。基本上，各種用戶訪談也是這個形式。我覺得這種應用蠻有價值的，批次可以訪談上百人，可以節省很多 PM 的時間。
講者的開發經驗是: 把所有問題放進 system prompt 是不行的。要一次只問一題，並搭配 roadmap 介面，讓使用者可以看到進度、自由跳題。

而且為避免 LLM 不斷延伸追問，系統還需搭配一個漂移檢測 Agent，監控對話是否偏離主題，必要時強制推進流程。
另外，OpenAI Realtime API 的語音轉錄雖方便，但在背景噪音或無聲時容易出錯，因此他們還加入了判斷轉錄品質的 Agent，來過濾錯誤內容。

10. Agents 可靠性: Building and evaluating AI Agents: Reliability

來自普林斯頓大學的 Sayash Kapoor 分享建構 AI Agents 的挑戰: 市場上許多 Agents 產品根本沒有宣稱的這麼好，實際應用時常無法可靠地重現預期結果。
這凸顯的一個 AI 領域的根本問題: 能力 Capability != 可靠性 Reliability，兩者有顯著落差。

目前 Agents 在評估時，業界普遍給的是 pass@k，也就是測試 k 次，有 1 次成功的機率!

但是這種評估方式跟終端用戶的實際體驗是脫節的，用戶根本不會測試這麼多次，真正用戶在乎的，應該是 pass^k，也就是測試 k 次每次都成功的機率! 這才是實際應用的關鍵指標。
從這個角度看，AI 工程師實質上是在從事 Reliability 工程: 我們的挑戰在於: 如何基於本質上具有隨機性的 LLM，來構建達到 99.999% 可靠性的應用系統。這不再是證明 AI 能否完成某項任務，而是確保其能在每次執行時穩定地完成任務。

研究科學家會關注的是「系統能執行的最高難度任務是什麼」，這推動了模型能力的前沿發展。然而，作為使用這些模型來打造應用的 AI 工程師，我們應該更加注重「系統能穩定、可靠完成的任務難度範圍在哪裡」。我認為這才是 AI 工程師正確的思維方式，也是將 AI Agents 從實驗室帶入實際應用的關鍵。

11. AI 產品設計: Don’t just slap on a chatbot: building AI that works before you ask

不要只是隨便加個聊天機器人: 打造無需詢問就能工作的 AI。
真的，別簡單只做聊天介面了，要主動發掘出用戶可能會問的問題跟行動，讓用戶直接確認執行就好了。

12. SQL Agent 案例: How to Build AI Agents that Actually Work

分享了一些建構 Agent 的開發經驗，講者做的案例是 SQL Agents:

重視推理能力勝於知識儲存
回應格式會影響模型處理能力
微調模型是浪費時間
自建代碼優於第三方框架
Agent 本身不是核心競爭力，而是建立 Agent 的整體生態系統並整合進產品
多 Agent 系統可遵循類似亞馬遜「兩個披薩」的團隊規則，目標不應是強制 Agent 遵循固定步驟，而是激勵管理 Agent 完成總體目標，

13. AI 產品定價: The Price of Intelligence – AI Agent Pricing in 2025

這場講 AI Agent 定價策略，蠻特別的題目，探討了很多家不同的定價策略。

14. 開源模型: WTF do people use Open Models for??

這場講的是大家到底拿開源模型做什麼? 講者 Eugene 是 Featherless AI 的 CEO 和 RWKV 開源專案的共同負責人，他分享了他們平台上的用戶是如何使用開源模型的，包括和其他平台例如 OpenRouter 交換數據來補充分析。

該說不意外嗎? 個人選擇用哪一種模型，是根據個人偏好、用戶體驗和模型名氣，而非技術指標。商用則更傾向穩定且小型的模型

開源模型前四大: Deepseek、Meta Lama、Mistral Nemo 和 Qwen。所以竟然沒有 Google 的 Gemma 嗎?

15. 醫療案例分享: Mission-Critical Evals at Scale: Learnings from 100k medical decisions

建立可擴展的醫療 AI 評估系統：來自十萬次醫療決策的經驗。講者是轉型為 AI 工程師的醫生!
這是醫療場景，可以想像是不容許出錯的。美國醫療領域目前就有許多組織因不當使用 AI 自動化而被起訴。但是人工審查會有規模限制，這要如何 Scale ?

16. 評估的挑戰: Your Evals Are Meaningless And Here’s How to Fix Them

這場 talk 講了評估的標準和資料集飄移問題，如果不能反應實際情況，你的評估就沒有意義了。需要持續改進 evaluator 和 dataset 來對齊真實情況。

希望你喜歡這集內容！如果你想更有系統地掌握這些 LLM 開發技術，歡迎報名我的大語言模型 LLM 應用開發工作坊(2025升級版) 課程。也歡迎把這門課推薦給對 LLM 應用開發有興趣的朋友！

愛好 AI Engineer 電子報 🚀 紐約 AI Engineer Summit 特輯 #26

1. Anthropic 講 Agents: Anthropic for VPs of AI

2. OpenAI 講 Agents: OpenAI for VP’s of AI + Advice for Building Agents

3. 開發 Agents 的三種挑戰: Why people think “agent” is a buzzword but it isn’t

4. Agents 開發的關鍵思考: How We Build Effective Agents – Barry Zhang of Anthropic

5. 知識競賽節目: Frontier Feud

6. 失敗的 AI 策略: How To Build an AI Strategy That Fails

7. 深度研究: Gemini Deep Research

8. CSV 案例經驗: Rethinking how we Scaffold AI Agents

9. 語音 Agent 案例經驗: Voice Agents: the good, the bad, and the ugly

10. Agents 可靠性: Building and evaluating AI Agents: Reliability

11. AI 產品設計: Don’t just slap on a chatbot: building AI that works before you ask

12. SQL Agent 案例: How to Build AI Agents that Actually Work

13. AI 產品定價: The Price of Intelligence – AI Agent Pricing in 2025

14. 開源模型: WTF do people use Open Models for??

15. 醫療案例分享: Mission-Critical Evals at Scale: Learnings from 100k medical decisions

16. 評估的挑戰: Your Evals Are Meaningless And Here’s How to Fix Them

請按讚：

發佈留言

發表迴響取消回覆

1. Anthropic 講 Agents: Anthropic for VPs of AI

2. OpenAI 講 Agents: OpenAI for VP’s of AI + Advice for Building Agents

3. 開發 Agents 的三種挑戰: Why people think “agent” is a buzzword but it isn’t

4. Agents 開發的關鍵思考: How We Build Effective Agents – Barry Zhang of Anthropic

5. 知識競賽節目: Frontier Feud

6. 失敗的 AI 策略: How To Build an AI Strategy That Fails

7. 深度研究: Gemini Deep Research

8. CSV 案例經驗: Rethinking how we Scaffold AI Agents

9. 語音 Agent 案例經驗: Voice Agents: the good, the bad, and the ugly

10. Agents 可靠性: Building and evaluating AI Agents: Reliability

11. AI 產品設計: Don’t just slap on a chatbot: building AI that works before you ask

12. SQL Agent 案例: How to Build AI Agents that Actually Work

13. AI 產品定價: The Price of Intelligence – AI Agent Pricing in 2025

14. 開源模型: WTF do people use Open Models for??

15. 醫療案例分享: Mission-Critical Evals at Scale: Learnings from 100k medical decisions

16. 評估的挑戰: Your Evals Are Meaningless And Here’s How to Fix Them

分享此文：

請按讚：

發佈留言

發表迴響取消回覆