愛好 AI Engineer 電子報 🚀 AI Engineer 的學習 Roadmap #20

Hello! 各位 AI 開發者大家好 👋

我是 ihower，最近大家有關心 OpenAI 連續 12 天的直播發佈會嗎?
不過到目前為止(Day 7)主要都是關於 ChatGPT 產品面的發表，還沒有看到關於開發者 API 的新東西馬上可以玩。

🔝 Inference, Fast and Slow

這篇文章提供了一個圖表是目前模型的推論範式有哪些，算是小小的複習一下。
現在除了大模型小模型，還有最便宜的批次跑、推理型 o1 最聰明、即時 realtime 型(現在還很貴)、快速編輯型(就上一篇電子報我們提到的)。

👍 Developer Roadmap

知名的 Developer Roadmap 路線圖現在也包括 AI Engineer 跟 Prompt Engineering Roadmap 了，可以檢查看看你的 AI 知識點有沒有點齊。

📡 Model Context Protocol

Anthropic 新出一個 MCP 協定，定義了 LLM app 如何透過 MCP server 去做 function calling (呼叫工具)

這個 app 目前就是 Claude for Desktop app 而已
至於 MCP server 是跑在本機上，你可以自己寫。Anthropic 有給很多範例。有用 Python 的，也有用 Node.js 的程式。

在 Claude app (請重新下載最新版本) 設定中，可以編輯 ~/Library/Application Support/Claude/claude_desktop_config.json，這就會在 claude app 啟動時，啟動你設定的 MCP servers。例如範例中有可以操作本機檔案的 filesystem server，如此你本機的 claude app 就可以操作檔案目錄啦。

和 ChatGPT app 的 custom GPT 相比，我認為最大的差異在於 Claude app 的 MCP 完全是基於本機的，因此省去了一些權限麻煩，但是本機要跑 server 同時也增加了設定難度，我在測試的過程中就碰到 Python 和 Node.js 的執行路徑問題。

話說回來，雖然理念不錯，但是我認為 OpenAI、微軟跟 Google 很可能不會遵循這套協定就是了。

📚 Creating a LLM-as-a-Judge That Drives Business Results

近期關於 LLM-as-a-Judge 最好的文章，透過領域專家的參與，使用簡單的通過/失敗判斷為基礎，建立有效的 LLM 評估系統。

找到關鍵領域專家是首要任務，他們將定義 AI 系統的成功標準
使用簡單的通過/失敗判斷，而非複雜的評分系統，讓評估更有效率且明確
每個評估都需要詳細評論，這些評論可用於訓練 LLM 評估器，並幫助釐清評估標準

🛠️ AlignEval

Eugene Yan 發布了一個名為 AlignEval 的 LLM-as-a-Judge 評估開源工具，非常有意思。
基本上就是一套將 LLM-evaluator (也是一個 prompt 用來評估用的)與人類評估對齊的工具，步驟是:

首先上傳一個包含輸入和輸出欄位的 CSV 檔案
查看數據，標記為通過或失敗(Pass/Fail)
定義評估標準，執行 LLM-evaluator 並檢查結果
透過 dev-test splits 的方式，最佳化這個 LLM-evaluator

🌟 生成式 AI 時代的 UI/UX

這篇文章探討了生成式 AI 在產品 UI/UX 中，與之前軟體的幾個重要差異，包括

生成式 AI 的輸出具有隨機性，需要透過可編輯性、限制和模板等方式來確保結果的可用性
生成式 AI 的回應有延遲，需要透過進度指示器和非同步處理來優化使用者體驗
對話介面不應只限於聊天格式，需要結合其他互動元素（如選取、指標等）來提升使用效率

🎯 An LLM TDD loop

這篇文章示範了一個結合 LLM 和 TDD 的 Bash script:

首先定義單元測試(tests)
執行這個 bash script，他會不斷迭代產生 code 跑測試，直到所有 tests 通過

雖然只是一個有趣的 PoC 概念驗證，但這可能就是未來軟體開發的模式了嗎?
如果 AI 產生的程式能通過所有你撰寫的測試，我們還需要關心 clean code 嗎?

📊 2024: The State of Generative AI in the Enterprise

這篇由 Menlo Ventures 發布的研究報告分析了 2024 年企業級生成式 AI 的發展現況:

雖然 OpenAI 市占率還是第一，但是份額被 Anthropic 搶走不少
RAG 技術的採用率大幅提升到 51% 是最重要的架構，相比微調技術只有 9%
企業對 AI 的支出大幅增長
應用方面，最多的是 AI Coding 寫程式，然後是客服 chatbot、企業內部知識檢索、數據提取轉換、會議摘要等

也可以參考簡體版整理。

最後，我在年底 2024/12/27 WebConf Taiwan 研討會有一場分享講 Agent 應用開發。
歡迎購票參加，售票截止日期是 12/20 12:30。

– ihower

愛好 AI Engineer 電子報 🚀 AI Engineer 的學習 Roadmap #20

🔝 Inference, Fast and Slow

👍 Developer Roadmap

📡 Model Context Protocol

📚 Creating a LLM-as-a-Judge That Drives Business Results

🛠️ AlignEval

🌟 生成式 AI 時代的 UI/UX

🎯 An LLM TDD loop

📊 2024: The State of Generative AI in the Enterprise

請按讚：

發佈留言

發表迴響取消回覆

🔝 Inference, Fast and Slow

👍 Developer Roadmap

📡 Model Context Protocol

📚 Creating a LLM-as-a-Judge That Drives Business Results

🛠️ AlignEval

🌟 生成式 AI 時代的 UI/UX

🎯 An LLM TDD loop

📊 2024: The State of Generative AI in the Enterprise

分享此文：

請按讚：

發佈留言

發表迴響取消回覆