愛好 AI Engineer 電子報 🚀 新型態代理人 OpenClaw 正夯,電子報改版 #35

歡迎訂閱 📬 愛好 AI Engineer 電子報 過往期數點這 📚

Hello! 各位 AI 開發者大家好 👋

跟大家拜個晚年!過年假期在玩 OpenClaw 非常有趣。

它是一個開源的自架 AI Agent 軟體,常駐在你的伺服器上。你會透過 Telegram、Discord 等通訊渠道,隨時隨地交代任務。等於擁有一個可以操作整台電腦、定時執行任務的個人助理。

我在 Facebook 上有分享了一些經驗,也有了一些新的想法:

目前玩法是把 OpenClaw 的 AI Agent (就叫蝦蝦吧)當作我的新員工看待,盡量只用 Telegram 交代他做事 (雖然偶爾還是會有出戲感,會需要手動SSH進去Server排除技術問題)
帳號也都是開新的給他,只開他任務需要知道的權限,而不是讓他去接手我的帳號權限。我認為這是比較好的安全界線。

這是我給蝦蝦新建立的帳號:

從本期電子報起,分享的文章摘要內容,會更直接就是 AI 生成的,會明確區分哪些內容完全是 AI 產出的。
相比之前電子報有花時間每篇人工審稿修改,之後會更放手直接就放 AI 產出,反正大家也看習慣 AI 摘要了(?)

不過放心,選題還是我真人做: 選擇哪些東西值得寫值得分享,還是有人類的聯想、判斷力和直覺。因此要分享哪些文章主題,都是我是挑好才交給 AI 後續處理的。

對於 AI 生成內容的閱讀建議: 只是幫助你快速掌握原文重點的導讀。畢竟原文往往篇幅較長、不容易快速消化,透過翻譯與摘要,
你可以在短時間內了解核心概念。但請留意,摘要無法涵蓋所有細節與脈絡。如果讀完覺得有興趣,強烈推薦點進原文獲得完整資訊。

換句話說: 時間充裕的話,可以直接點原文閱讀。如果時間有限,可以先看中文導讀,有興趣再深入原文。
無論如何,我對自己挑選要分享的原文還是有信心都是很好的內容 😄

在本期分享的精彩文章中,有幾篇我特別有收穫:

⬇️⬇️ 以下是我挑選文章後,由 AI 生成的內容 ⚠️⚠️

🤖 如何選擇 Multi-Agent 架構?

  • 比較 Subagents、Skills、Handoffs、Router 四種架構的優缺點
  • 建議先從單一代理搭配好的工具開始
  • 只有在 context 塞不下或團隊需分工時才考慮多代理

🔌 Open Responses: LLM API 終於要有統一標準了嗎?

  • OpenAI 提出通用 LLM API 規範 Open Responses
  • OpenRouter、Hugging Face 等主要廠商已支持
  • 有望降低不同 LLM 平台之間的整合成本

⚔️ 2025 AI 大混戰回顧: 從 Code Red 到 IDE Wars

  • Google Gemini 3 Pro 奪回性能第一
  • Anthropic 在企業市場和編碼工具佔據優勢
  • OpenAI 面臨多方挑戰

🧠 LangChain Agent Builder 的記憶系統是怎麼做的

  • 用檔案系統架構管理 Agent 的三層記憶(程序、語意、情節)
  • 讓 Agent 能自動從互動中學習和更新記憶

📉 用 AI 寫 code 更快了,但你真的有學到東西嗎?

  • Anthropic 研究發現使用 AI 助手的工程師考試分數低了 17%
  • 除錯能力退化最為明顯
  • 過度依賴 AI 可能導致核心技能萎縮

🏢 Anthropic 內部研究: AI 如何徹底改變他們自己的工作方式

  • 工程師角色從「寫代碼」轉向「管理 AI 代理」
  • 帶來生產力提升與技能邊界擴張
  • 也引發技能萎縮和職涯不確定性的擔憂

🍋 為什麼多數 Agent 框架都沒有內化 Bitter Lesson?

  • 固定工作流和預定義角色違反 Bitter Lesson 原則
  • 應轉向動態委派和遞迴語言模型等可規模化方法

🧩 Jason Liu 的 Context Engineering 系列: 打造更好的 Agentic RAG 系統

  • 涵蓋工具輸出設計、Subagent 架構、信息壓縮
  • 系統化講解生產級 Agentic RAG 的關鍵決策點
  • 從快速原型驗證到實際部署的完整路徑

📊 如何為 AI Agent 設計有效的評估 (Evals)

  • Anthropic 分享不同 Agent 類型的評估策略
  • 講解 pass@k vs pass^k 的選擇
  • 提供從零開始建立 Eval 的路線圖

🃏 AI Evals 閃卡全解析: Hamel Husain 的 12 張 Evals 精華卡片

  • 12 張圖解卡片濃縮 AI Evals 核心方法論
  • 涵蓋錯誤分析、Eval 時機、指標選擇到部署策略

🌫️ 為什麼通用 AI 指標是海市蜃樓?

  • ROUGE、BERTScore 等通用指標對實際產品無用
  • 應用質性錯誤分析驅動自定義評估指標
  • 評估要針對特定領域量身打造

🔍 LangSmith Insights Agent 深度拆解: 從 Clio 論文到生產級 Agent 的完整旅程

  • 用 LLM 驅動的分類取代傳統 Embedding 聚類
  • 自動發現生產環境中的使用者行為模式和失敗原因
  • 從研究概念進化為實用的 debugging 工具

🗄️ OpenAI 內部的 Data Agent: 六層 Context + RAG + Text-to-SQL 的實戰架構

  • 透過六層漸進式 Context 實現高品質自然語言轉 SQL
  • 包含元數據、查詢歷史、人工標註、程式碼增強、組織知識、記憶

Product Evals 三步驟: 從標註資料到自動化評估

  • 手動標註一小批資料
  • 用二元標籤校準 LLM 評估器
  • 每次改動都跑評估,縮短迭代回饋迴圈

🔗 AI Agent 時代,Trace 才是你的 source of truth

  • Trace 取代原始代碼,成為理解 Agent 真實行為的關鍵
  • 用 Trace 進行 Debugging、Testing、Performance Profiling 和品質監控

🏗️ OpenAI 內部實驗: 100% AI 寫的產品,人類只負責導航

  • OpenAI 用 Codex 從空白代碼庫開發產品,五個月產出百萬行代碼
  • 工程師角色轉為設計環境、制定約束、執行架構品味

🎯 讓 AI Agent 更可靠的 9 種方法: 從 Workflow Builder 到 Response Caching

  • 整理 9 種讓 Agent 行為更可預測的方法
  • 從最高層的工作流建構器到最底層的模型改進
  • 各有不同的準確性和靈活性取捨

🔄 用 Evaluation Flywheel 系統化改進你的 Prompt

  • 評估飛輪三階段:分析問題、自動化測量、迭代改進
  • 無需編程即可利用 OpenAI 後台評估工具
  • 系統化改進 Prompt 品質

Jeff Dean 和 Sanjay Ghemawat 的效能優化心法

  • 從背包估算、Profile 分析到資料結構選擇與 API 設計
  • 強調應該在寫代碼時而非事後才考慮效能

🔎 RAG 不只是 Vector Search: 從語意相似度到真正的搜尋理解

  • 向量搜尋無法真正解決 RAG 問題
  • 應用 LLM 將自然語言轉化為結構化查詢
  • 結合領域特定的篩選邏輯,而非一味依賴向量相似度

📈 2025 年 LLM 發展回顧: 推理模型、Benchmaxxing 與未來預測

  • 2025 年關鍵進展是推理模型和推論時擴展
  • 過度追求基準分數(Benchmaxxing)造成虛假繁榮
  • 真實產品表現才是關鍵指標

📦 AI Agent 怎麼管理 Context? 從設計模式到 Deep Agents 實作

  • Agent 設計的核心本質是 Context 管理問題
  • 包括多層 Action Space、漸進式揭露
  • 把 Context 卸載到檔案系統

📁 Agent Files: 檔案系統正在成為 AI Agent 的核心介面

  • 檔案系統用於 Agent 的長期記憶、取代傳統 RAG、作為 Skills 機制
  • 需要像 AgentFS 這樣的虛擬層來確保安全性

🛠️ Agent Skills 完整攻略: 從建立到評估,Anthropic 和 OpenAI 的方法論整理

  • Anthropic 和 OpenAI 同時推出 Agent Skills 深度指南
  • Skills 用 YAML Frontmatter + SKILL.md 定義
  • 透過確定性檢查和 Rubric-based 評分系統化評估

🛡️ 當你的面試題被自家 AI 打敗: Anthropic 的技術考試攻防戰

  • Anthropic 工程師分享設計「AI 防禦」技術面試的經驗
  • 傳統題目無法抵抗強大 AI
  • 應轉向「新穎」問題來測試人類推理能力

🚀 OpenAI API 推出 Skills: 讓 AI Agent 從單次回覆走向長時間工作流

  • Skills API 讓 Agent 執行多步驟工作流程
  • 搭配升級版 Shell tool 和伺服器端壓縮
  • 使 Agent 能真正執行長時間、複雜的知識工作

希望你會喜歡這集新的結構和內容!有任何想跟我分享的事情,也歡迎直接回覆這封信給我。

– ihower

發佈留言

發表迴響