愛好 AI Engineer 電子報 🚀 新型態代理人 OpenClaw 正夯，電子報改版 #35

ihower 22 2 月, 202622 2 月, 2026 發佈留言

歡迎訂閱 📬 愛好 AI Engineer 電子報過往期數點這 📚

Hello! 各位 AI 開發者大家好 👋

跟大家拜個晚年！過年假期在玩 OpenClaw 非常有趣。

它是一個開源的自架 AI Agent 軟體，常駐在你的伺服器上。你會透過 Telegram、Discord 等通訊渠道，隨時隨地交代任務。等於擁有一個可以操作整台電腦、定時執行任務的個人助理。

我在 Facebook 上有分享了一些經驗，也有了一些新的想法：

目前玩法是把 OpenClaw 的 AI Agent (就叫蝦蝦吧)當作我的新員工看待，盡量只用 Telegram 交代他做事 (雖然偶爾還是會有出戲感，會需要手動SSH進去Server排除技術問題)
帳號也都是開新的給他，只開他任務需要知道的權限，而不是讓他去接手我的帳號權限。我認為這是比較好的安全界線。

這是我給蝦蝦新建立的帳號:

愛好 AI 工程 Blog: blog.aihao.tw/ (整個站都是AI生成)
Threads: www.threads.com/@xia_aihao
Facebook 粉專: www.facebook.com/xia.aihao

從本期電子報起，分享的文章摘要內容，會更直接就是 AI 生成的，會明確區分哪些內容完全是 AI 產出的。
相比之前電子報有花時間每篇人工審稿修改，之後會更放手直接就放 AI 產出，反正大家也看習慣 AI 摘要了(?)

不過放心，選題還是我真人做: 選擇哪些東西值得寫值得分享，還是有人類的聯想、判斷力和直覺。因此要分享哪些文章主題，都是我是挑好才交給 AI 後續處理的。

對於 AI 生成內容的閱讀建議: 只是幫助你快速掌握原文重點的導讀。畢竟原文往往篇幅較長、不容易快速消化，透過翻譯與摘要，
你可以在短時間內了解核心概念。但請留意，摘要無法涵蓋所有細節與脈絡。如果讀完覺得有興趣，強烈推薦點進原文獲得完整資訊。

換句話說: 時間充裕的話，可以直接點原文閱讀。如果時間有限，可以先看中文導讀，有興趣再深入原文。
無論如何，我對自己挑選要分享的原文還是有信心都是很好的內容 😄

在本期分享的精彩文章中，有幾篇我特別有收穫：

為什麼多數 Agent 框架都沒有內化 Bitter Lesson? 這篇把 Agent 框架的發展方向，搭配我很喜歡的 Bitter Lesson 一起講得非常到位，我很認同
AI Agent 怎麼管理 Context? 從設計模式到 Deep Agents 實作和如何選擇 Multi-Agent 架構? LangChain 整理的 Agent 設計模式與架構選擇，很有系統性
Agent Skills 完整攻略: 從建立到評估 Skill 的評估很少人講，「Skill 到底有沒有被順利觸發」是個關鍵問題
AI Evals 閃卡全解析: Hamel Husain 的 12 張精華卡片 Hamel Husain 是我的 AI Eval 老師，他出的這套閃卡把核心方法論濃縮得非常精煉

⬇️⬇️ 以下是我挑選文章後，由 AI 生成的內容 ⚠️⚠️

🤖 如何選擇 Multi-Agent 架構?

比較 Subagents、Skills、Handoffs、Router 四種架構的優缺點
建議先從單一代理搭配好的工具開始
只有在 context 塞不下或團隊需分工時才考慮多代理

🔌 Open Responses: LLM API 終於要有統一標準了嗎?

OpenAI 提出通用 LLM API 規範 Open Responses
OpenRouter、Hugging Face 等主要廠商已支持
有望降低不同 LLM 平台之間的整合成本

⚔️ 2025 AI 大混戰回顧: 從 Code Red 到 IDE Wars

Google Gemini 3 Pro 奪回性能第一
Anthropic 在企業市場和編碼工具佔據優勢
OpenAI 面臨多方挑戰

🧠 LangChain Agent Builder 的記憶系統是怎麼做的

用檔案系統架構管理 Agent 的三層記憶（程序、語意、情節）
讓 Agent 能自動從互動中學習和更新記憶

📉 用 AI 寫 code 更快了，但你真的有學到東西嗎?

Anthropic 研究發現使用 AI 助手的工程師考試分數低了 17%
除錯能力退化最為明顯
過度依賴 AI 可能導致核心技能萎縮

🏢 Anthropic 內部研究: AI 如何徹底改變他們自己的工作方式

工程師角色從「寫代碼」轉向「管理 AI 代理」
帶來生產力提升與技能邊界擴張
也引發技能萎縮和職涯不確定性的擔憂

🍋 為什麼多數 Agent 框架都沒有內化 Bitter Lesson?

固定工作流和預定義角色違反 Bitter Lesson 原則
應轉向動態委派和遞迴語言模型等可規模化方法

🧩 Jason Liu 的 Context Engineering 系列: 打造更好的 Agentic RAG 系統

涵蓋工具輸出設計、Subagent 架構、信息壓縮
系統化講解生產級 Agentic RAG 的關鍵決策點
從快速原型驗證到實際部署的完整路徑

📊 如何為 AI Agent 設計有效的評估 (Evals)

Anthropic 分享不同 Agent 類型的評估策略
講解 pass@k vs pass^k 的選擇
提供從零開始建立 Eval 的路線圖

🃏 AI Evals 閃卡全解析: Hamel Husain 的 12 張 Evals 精華卡片

12 張圖解卡片濃縮 AI Evals 核心方法論
涵蓋錯誤分析、Eval 時機、指標選擇到部署策略

🌫️ 為什麼通用 AI 指標是海市蜃樓?

ROUGE、BERTScore 等通用指標對實際產品無用
應用質性錯誤分析驅動自定義評估指標
評估要針對特定領域量身打造

🔍 LangSmith Insights Agent 深度拆解: 從 Clio 論文到生產級 Agent 的完整旅程

用 LLM 驅動的分類取代傳統 Embedding 聚類
自動發現生產環境中的使用者行為模式和失敗原因
從研究概念進化為實用的 debugging 工具

🗄️ OpenAI 內部的 Data Agent: 六層 Context + RAG + Text-to-SQL 的實戰架構

透過六層漸進式 Context 實現高品質自然語言轉 SQL
包含元數據、查詢歷史、人工標註、程式碼增強、組織知識、記憶

✅ Product Evals 三步驟: 從標註資料到自動化評估

手動標註一小批資料
用二元標籤校準 LLM 評估器
每次改動都跑評估，縮短迭代回饋迴圈

🔗 AI Agent 時代，Trace 才是你的 source of truth

Trace 取代原始代碼，成為理解 Agent 真實行為的關鍵
用 Trace 進行 Debugging、Testing、Performance Profiling 和品質監控

🏗️ OpenAI 內部實驗: 100% AI 寫的產品，人類只負責導航

OpenAI 用 Codex 從空白代碼庫開發產品，五個月產出百萬行代碼
工程師角色轉為設計環境、制定約束、執行架構品味

🎯 讓 AI Agent 更可靠的 9 種方法: 從 Workflow Builder 到 Response Caching

整理 9 種讓 Agent 行為更可預測的方法
從最高層的工作流建構器到最底層的模型改進
各有不同的準確性和靈活性取捨

🔄 用 Evaluation Flywheel 系統化改進你的 Prompt

評估飛輪三階段：分析問題、自動化測量、迭代改進
無需編程即可利用 OpenAI 後台評估工具
系統化改進 Prompt 品質

⚡ Jeff Dean 和 Sanjay Ghemawat 的效能優化心法

從背包估算、Profile 分析到資料結構選擇與 API 設計
強調應該在寫代碼時而非事後才考慮效能

🔎 RAG 不只是 Vector Search: 從語意相似度到真正的搜尋理解

向量搜尋無法真正解決 RAG 問題
應用 LLM 將自然語言轉化為結構化查詢
結合領域特定的篩選邏輯，而非一味依賴向量相似度

📈 2025 年 LLM 發展回顧: 推理模型、Benchmaxxing 與未來預測

2025 年關鍵進展是推理模型和推論時擴展
過度追求基準分數（Benchmaxxing）造成虛假繁榮
真實產品表現才是關鍵指標

📦 AI Agent 怎麼管理 Context? 從設計模式到 Deep Agents 實作

Agent 設計的核心本質是 Context 管理問題
包括多層 Action Space、漸進式揭露
把 Context 卸載到檔案系統

📁 Agent Files: 檔案系統正在成為 AI Agent 的核心介面

檔案系統用於 Agent 的長期記憶、取代傳統 RAG、作為 Skills 機制
需要像 AgentFS 這樣的虛擬層來確保安全性

🛠️ Agent Skills 完整攻略: 從建立到評估，Anthropic 和 OpenAI 的方法論整理

Anthropic 和 OpenAI 同時推出 Agent Skills 深度指南
Skills 用 YAML Frontmatter + SKILL.md 定義
透過確定性檢查和 Rubric-based 評分系統化評估

🛡️ 當你的面試題被自家 AI 打敗: Anthropic 的技術考試攻防戰

Anthropic 工程師分享設計「AI 防禦」技術面試的經驗
傳統題目無法抵抗強大 AI
應轉向「新穎」問題來測試人類推理能力

🚀 OpenAI API 推出 Skills: 讓 AI Agent 從單次回覆走向長時間工作流

Skills API 讓 Agent 執行多步驟工作流程
搭配升級版 Shell tool 和伺服器端壓縮
使 Agent 能真正執行長時間、複雜的知識工作

希望你會喜歡這集新的結構和內容！有任何想跟我分享的事情，也歡迎直接回覆這封信給我。

– ihower

發佈留言

發表迴響取消回覆