
Hello! 各位 AI 開發者大家好 👋
跟大家拜個晚年!過年假期在玩 OpenClaw 非常有趣。
它是一個開源的自架 AI Agent 軟體,常駐在你的伺服器上。你會透過 Telegram、Discord 等通訊渠道,隨時隨地交代任務。等於擁有一個可以操作整台電腦、定時執行任務的個人助理。
我在 Facebook 上有分享了一些經驗,也有了一些新的想法:
目前玩法是把 OpenClaw 的 AI Agent (就叫蝦蝦吧)當作我的新員工看待,盡量只用 Telegram 交代他做事 (雖然偶爾還是會有出戲感,會需要手動SSH進去Server排除技術問題)
帳號也都是開新的給他,只開他任務需要知道的權限,而不是讓他去接手我的帳號權限。我認為這是比較好的安全界線。
這是我給蝦蝦新建立的帳號:
- 愛好 AI 工程 Blog: blog.aihao.tw/ (整個站都是AI生成)
- Threads: www.threads.com/@xia_aihao
- Facebook 粉專: www.facebook.com/xia.aihao
從本期電子報起,分享的文章摘要內容,會更直接就是 AI 生成的,會明確區分哪些內容完全是 AI 產出的。
相比之前電子報有花時間每篇人工審稿修改,之後會更放手直接就放 AI 產出,反正大家也看習慣 AI 摘要了(?)
不過放心,選題還是我真人做: 選擇哪些東西值得寫值得分享,還是有人類的聯想、判斷力和直覺。因此要分享哪些文章主題,都是我是挑好才交給 AI 後續處理的。
對於 AI 生成內容的閱讀建議: 只是幫助你快速掌握原文重點的導讀。畢竟原文往往篇幅較長、不容易快速消化,透過翻譯與摘要,
你可以在短時間內了解核心概念。但請留意,摘要無法涵蓋所有細節與脈絡。如果讀完覺得有興趣,強烈推薦點進原文獲得完整資訊。
換句話說: 時間充裕的話,可以直接點原文閱讀。如果時間有限,可以先看中文導讀,有興趣再深入原文。
無論如何,我對自己挑選要分享的原文還是有信心都是很好的內容 😄
在本期分享的精彩文章中,有幾篇我特別有收穫:
- 為什麼多數 Agent 框架都沒有內化 Bitter Lesson? 這篇把 Agent 框架的發展方向,搭配我很喜歡的 Bitter Lesson 一起講得非常到位,我很認同
- AI Agent 怎麼管理 Context? 從設計模式到 Deep Agents 實作 和 如何選擇 Multi-Agent 架構? LangChain 整理的 Agent 設計模式與架構選擇,很有系統性
- Agent Skills 完整攻略: 從建立到評估 Skill 的評估很少人講,「Skill 到底有沒有被順利觸發」是個關鍵問題
- AI Evals 閃卡全解析: Hamel Husain 的 12 張精華卡片 Hamel Husain 是我的 AI Eval 老師,他出的這套閃卡把核心方法論濃縮得非常精煉
⬇️⬇️ 以下是我挑選文章後,由 AI 生成的內容 ⚠️⚠️
🤖 如何選擇 Multi-Agent 架構?
- 比較 Subagents、Skills、Handoffs、Router 四種架構的優缺點
- 建議先從單一代理搭配好的工具開始
- 只有在 context 塞不下或團隊需分工時才考慮多代理
🔌 Open Responses: LLM API 終於要有統一標準了嗎?
- OpenAI 提出通用 LLM API 規範 Open Responses
- OpenRouter、Hugging Face 等主要廠商已支持
- 有望降低不同 LLM 平台之間的整合成本
⚔️ 2025 AI 大混戰回顧: 從 Code Red 到 IDE Wars
- Google Gemini 3 Pro 奪回性能第一
- Anthropic 在企業市場和編碼工具佔據優勢
- OpenAI 面臨多方挑戰
🧠 LangChain Agent Builder 的記憶系統是怎麼做的
- 用檔案系統架構管理 Agent 的三層記憶(程序、語意、情節)
- 讓 Agent 能自動從互動中學習和更新記憶
📉 用 AI 寫 code 更快了,但你真的有學到東西嗎?
- Anthropic 研究發現使用 AI 助手的工程師考試分數低了 17%
- 除錯能力退化最為明顯
- 過度依賴 AI 可能導致核心技能萎縮
🏢 Anthropic 內部研究: AI 如何徹底改變他們自己的工作方式
- 工程師角色從「寫代碼」轉向「管理 AI 代理」
- 帶來生產力提升與技能邊界擴張
- 也引發技能萎縮和職涯不確定性的擔憂
🍋 為什麼多數 Agent 框架都沒有內化 Bitter Lesson?
- 固定工作流和預定義角色違反 Bitter Lesson 原則
- 應轉向動態委派和遞迴語言模型等可規模化方法
🧩 Jason Liu 的 Context Engineering 系列: 打造更好的 Agentic RAG 系統
- 涵蓋工具輸出設計、Subagent 架構、信息壓縮
- 系統化講解生產級 Agentic RAG 的關鍵決策點
- 從快速原型驗證到實際部署的完整路徑
📊 如何為 AI Agent 設計有效的評估 (Evals)
- Anthropic 分享不同 Agent 類型的評估策略
- 講解 pass@k vs pass^k 的選擇
- 提供從零開始建立 Eval 的路線圖
🃏 AI Evals 閃卡全解析: Hamel Husain 的 12 張 Evals 精華卡片
- 12 張圖解卡片濃縮 AI Evals 核心方法論
- 涵蓋錯誤分析、Eval 時機、指標選擇到部署策略
🌫️ 為什麼通用 AI 指標是海市蜃樓?
- ROUGE、BERTScore 等通用指標對實際產品無用
- 應用質性錯誤分析驅動自定義評估指標
- 評估要針對特定領域量身打造
🔍 LangSmith Insights Agent 深度拆解: 從 Clio 論文到生產級 Agent 的完整旅程
- 用 LLM 驅動的分類取代傳統 Embedding 聚類
- 自動發現生產環境中的使用者行為模式和失敗原因
- 從研究概念進化為實用的 debugging 工具
🗄️ OpenAI 內部的 Data Agent: 六層 Context + RAG + Text-to-SQL 的實戰架構
- 透過六層漸進式 Context 實現高品質自然語言轉 SQL
- 包含元數據、查詢歷史、人工標註、程式碼增強、組織知識、記憶
✅ Product Evals 三步驟: 從標註資料到自動化評估
- 手動標註一小批資料
- 用二元標籤校準 LLM 評估器
- 每次改動都跑評估,縮短迭代回饋迴圈
🔗 AI Agent 時代,Trace 才是你的 source of truth
- Trace 取代原始代碼,成為理解 Agent 真實行為的關鍵
- 用 Trace 進行 Debugging、Testing、Performance Profiling 和品質監控
🏗️ OpenAI 內部實驗: 100% AI 寫的產品,人類只負責導航
- OpenAI 用 Codex 從空白代碼庫開發產品,五個月產出百萬行代碼
- 工程師角色轉為設計環境、制定約束、執行架構品味
🎯 讓 AI Agent 更可靠的 9 種方法: 從 Workflow Builder 到 Response Caching
- 整理 9 種讓 Agent 行為更可預測的方法
- 從最高層的工作流建構器到最底層的模型改進
- 各有不同的準確性和靈活性取捨
🔄 用 Evaluation Flywheel 系統化改進你的 Prompt
- 評估飛輪三階段:分析問題、自動化測量、迭代改進
- 無需編程即可利用 OpenAI 後台評估工具
- 系統化改進 Prompt 品質
⚡ Jeff Dean 和 Sanjay Ghemawat 的效能優化心法
- 從背包估算、Profile 分析到資料結構選擇與 API 設計
- 強調應該在寫代碼時而非事後才考慮效能
🔎 RAG 不只是 Vector Search: 從語意相似度到真正的搜尋理解
- 向量搜尋無法真正解決 RAG 問題
- 應用 LLM 將自然語言轉化為結構化查詢
- 結合領域特定的篩選邏輯,而非一味依賴向量相似度
📈 2025 年 LLM 發展回顧: 推理模型、Benchmaxxing 與未來預測
- 2025 年關鍵進展是推理模型和推論時擴展
- 過度追求基準分數(Benchmaxxing)造成虛假繁榮
- 真實產品表現才是關鍵指標
📦 AI Agent 怎麼管理 Context? 從設計模式到 Deep Agents 實作
- Agent 設計的核心本質是 Context 管理問題
- 包括多層 Action Space、漸進式揭露
- 把 Context 卸載到檔案系統
📁 Agent Files: 檔案系統正在成為 AI Agent 的核心介面
- 檔案系統用於 Agent 的長期記憶、取代傳統 RAG、作為 Skills 機制
- 需要像 AgentFS 這樣的虛擬層來確保安全性
🛠️ Agent Skills 完整攻略: 從建立到評估,Anthropic 和 OpenAI 的方法論整理
- Anthropic 和 OpenAI 同時推出 Agent Skills 深度指南
- Skills 用 YAML Frontmatter + SKILL.md 定義
- 透過確定性檢查和 Rubric-based 評分系統化評估
🛡️ 當你的面試題被自家 AI 打敗: Anthropic 的技術考試攻防戰
- Anthropic 工程師分享設計「AI 防禦」技術面試的經驗
- 傳統題目無法抵抗強大 AI
- 應轉向「新穎」問題來測試人類推理能力
🚀 OpenAI API 推出 Skills: 讓 AI Agent 從單次回覆走向長時間工作流
- Skills API 讓 Agent 執行多步驟工作流程
- 搭配升級版 Shell tool 和伺服器端壓縮
- 使 Agent 能真正執行長時間、複雜的知識工作
希望你會喜歡這集新的結構和內容!有任何想跟我分享的事情,也歡迎直接回覆這封信給我。
– ihower