Hello! 各位 AI 開發者大家好 👋
我是 ihower,最近大家有關心 OpenAI 連續 12 天的直播發佈會嗎?
不過到目前為止(Day 7)主要都是關於 ChatGPT 產品面的發表,還沒有看到關於開發者 API 的新東西馬上可以玩。
🔝 Inference, Fast and Slow
這篇文章提供了一個圖表是目前模型的推論範式有哪些,算是小小的複習一下。
現在除了大模型小模型,還有最便宜的批次跑、推理型 o1 最聰明、即時 realtime 型(現在還很貴)、快速編輯型(就上一篇電子報我們提到的)。
👍 Developer Roadmap
知名的 Developer Roadmap 路線圖現在也包括 AI Engineer 跟 Prompt Engineering Roadmap 了,可以檢查看看你的 AI 知識點有沒有點齊。
📡 Model Context Protocol
Anthropic 新出一個 MCP 協定,定義了 LLM app 如何透過 MCP server 去做 function calling (呼叫工具)
- 這個 app 目前就是 Claude for Desktop app 而已
- 至於 MCP server 是跑在本機上,你可以自己寫。Anthropic 有給很多範例。有用 Python 的,也有用 Node.js 的程式。
在 Claude app (請重新下載最新版本) 設定中,可以編輯 ~/Library/Application Support/Claude/claude_desktop_config.json,這就會在 claude app 啟動時,啟動你設定的 MCP servers。例如範例中有可以操作本機檔案的 filesystem server,如此你本機的 claude app 就可以操作檔案目錄啦。
和 ChatGPT app 的 custom GPT 相比,我認為最大的差異在於 Claude app 的 MCP 完全是基於本機的,因此省去了一些權限麻煩,但是本機要跑 server 同時也增加了設定難度,我在測試的過程中就碰到 Python 和 Node.js 的執行路徑問題。
話說回來,雖然理念不錯,但是我認為 OpenAI、微軟跟 Google 很可能不會遵循這套協定就是了。
📚 Creating a LLM-as-a-Judge That Drives Business Results
近期關於 LLM-as-a-Judge 最好的文章,透過領域專家的參與,使用簡單的通過/失敗判斷為基礎,建立有效的 LLM 評估系統。
- 找到關鍵領域專家是首要任務,他們將定義 AI 系統的成功標準
- 使用簡單的通過/失敗判斷,而非複雜的評分系統,讓評估更有效率且明確
- 每個評估都需要詳細評論,這些評論可用於訓練 LLM 評估器,並幫助釐清評估標準
🛠️ AlignEval
Eugene Yan 發布了一個名為 AlignEval 的 LLM-as-a-Judge 評估開源工具,非常有意思。
基本上就是一套將 LLM-evaluator (也是一個 prompt 用來評估用的)與人類評估對齊的工具,步驟是:
- 首先上傳一個包含輸入和輸出欄位的 CSV 檔案
- 查看數據,標記為通過或失敗(Pass/Fail)
- 定義 評估 標準,執行 LLM-evaluator 並檢查結果
- 透過 dev-test splits 的方式,最佳化這個 LLM-evaluator
🌟 生成式 AI 時代的 UI/UX
這篇文章探討了生成式 AI 在產品 UI/UX 中,與之前軟體的幾個重要差異,包括
- 生成式 AI 的輸出具有隨機性,需要透過可編輯性、限制和模板等方式來確保結果的可用性
- 生成式 AI 的回應有延遲,需要透過進度指示器和非同步處理來優化使用者體驗
- 對話介面不應只限於聊天格式,需要結合其他互動元素(如選取、指標等)來提升使用效率
🎯 An LLM TDD loop
這篇文章示範了一個結合 LLM 和 TDD 的 Bash script:
- 首先定義單元測試(tests)
- 執行這個 bash script,他會不斷迭代產生 code 跑測試,直到所有 tests 通過
雖然只是一個有趣的 PoC 概念驗證,但這可能就是未來軟體開發的模式了嗎?
如果 AI 產生的程式能通過所有你撰寫的測試,我們還需要關心 clean code 嗎?
📊 2024: The State of Generative AI in the Enterprise
這篇由 Menlo Ventures 發布的研究報告分析了 2024 年企業級生成式 AI 的發展現況:
- 雖然 OpenAI 市占率還是第一,但是份額被 Anthropic 搶走不少
- RAG 技術的採用率大幅提升到 51% 是最重要的架構,相比微調技術只有 9%
- 企業對 AI 的支出大幅增長
- 應用方面,最多的是 AI Coding 寫程式,然後是客服 chatbot、企業內部知識檢索、數據提取轉換、會議摘要等
也可以參考簡體版整理。
最後,我在年底 2024/12/27 WebConf Taiwan 研討會 有一場分享講 Agent 應用開發。
歡迎購票參加,售票截止日期是 12/20 12:30。
– ihower