愛好 AI Engineer 電子報 🚀 VisTW 繁體中文的視覺評測和 Deep Search #25

Hello! 各位 AI 開發者大家好 👋

我是 ihower，最近的熱門話題是在同一天內相隔幾小時發表 ChatGPT 4o image 生圖功能，以及新的SOTA王者 Gemini 2.5 Pro 模型，大家都有嘗試了嗎?

🔝 大語言模型 LLM 應用開發工作坊 (2025升級版)

我的 LLM 課程開放報名啦，距離上次公開課應該也快一年了，這段期間忙著做案子和企業內訓。但太多人在敲碗期待課程更新，這次終於排出時間來開一波。如果錯過這次，可能就要等到年底才有機會再開囉。

課名: 大語言模型 LLM 應用開發工作坊 (2025升級版)，這是針對軟體工程師的 OpenAI API、Chatbot、Prompt Engineering、RAG、Agents 的開發課程

適合對象: 有經驗的軟體工程師。非資訊專業或看不懂程式碼的話，不建議報名此課程，你一定跟不上進度。這門課就是乾貨滿滿、節奏紮實，適合有程式基礎的工程師。

課程日期: 分三次上課 2025/4/26 (六)、2025/5/3 (六)、2025/5/10 (六) PM7~PM10 (視進度和 QA 情況，可能彈性延長至 PM 10:30)

上課地點: 線上 Zoom 直播

舊生可享半價優惠。

🧠 VisTW 繁體中文的視覺評測

非常難得可以看到專為繁體中文做的視覺語言模型設計的評測資料集，這個 VisTW 包含兩個子集：

MCQ: 來自21個學術科目的多選題集合
對話: 真實生活圖像與相應問題，需要理解繁體中文和台灣特定文化背景

這是 benchmark 和 paper，歡迎關注第一作者 zraytam

🔍 DeepSearch 和 DeepResearch

在 OpenAI 推出 DeepResearch 之後，各家也都仿效推出類似的功能。但我一直認為很多人做的只是 Deep Search 而不是 Deep Research。前者仍是較短的答案形式，後者是分章節的長篇報告，有很大的細節差異。

Jina AI 寫的這篇明確對 DeepSearch 和 DeepResearch 這兩個概念做了明確的實作區分，覺得很好:

DeepSearch:

通過搜索、閱讀和推理的迭代循環，直到找到最佳答案
利用網絡搜索引擎探索網路，並讀取網頁詳細分析
核心是一個主要循環，帶有決定下一步操作的邏輯

DeepResearch:

建立在 DeepSearch 之上，添加了生成”長篇研究報告”的結構化框架
通常從創建章節目錄開始，然後系統地將 DeepSearch 應用於每個部分
最終階段將所有內容整合到單一 prompt 中再輸出，以提高整體敘述連貫性

兩者的關鍵區別：

DeepSearch 是一個原子性的基本構件，而 DeepResearch 建立在此之上
DeepSearch 專注於信息準確性和完整性，DeepResearch 著重於內容組織和可讀性
DeepSearch 提供簡潔的答案，而 DeepResearch 生成結構化報告

另外 Jina AI 發現，查詢重寫(Query Rewrite)和擴展(Query Expansion)是其中一個關鍵元件，對結果品質有直接影響。

🌟 OpenAI 新推出的語音模型

OpenAI 發布了三個全新的語音模型：

兩款超越 Whisper 的語音轉文字模型：gpt-4o-transcribe 和 gpt-4o-mini-transcribe，可以能更精確地捕捉語音細節，在口音、嘈雜環境和不同語速場景中表現優秀
一款新的 TTS 模型：gpt-4o-mini-tts，可以指導它如何說話，具備更佳的可操控性

OpenAI 還推出了精美的展示網頁 openai.fm，提供互動式體驗。用戶可選擇用不同聲音、情緒和指令。

更多請詳見 OpenAI 的語音 API 文件

👍 OpenAI 新推出的 Agents Tools

OpenAI 推出了一系列 Agents 相關工具，包括

1️⃣ 新的 Response API，取代了之前的 Assistants API (這個 API 明年會gg關掉)，功能感覺也 87 分像: 有狀態會記得對話 thread 狀態，有內建工具可以讓你使用。詳細可以看一下 Responses vs. Chat Completions 的比較說明，注意現在在 OpenAI API 後台的右上角，都可以切換你是要用哪一種 API 形式。

提供的內建工具包括:

新的 Web search 工具: 可以透過 Chat Completions API 使用，也可以在新的 Responses API 用
File search 工具: 這就是本來 Assistants API 的知識庫 RAG 功能
新的 Computer use 工具: 這只能在 Responses API 使用
Code interpreter 功能，預計推出，並只能在 Responses API 使用

另外，在 X 上有 OpenAI 員工分享這個新 API 背後的設計決策故事，也非常有意思。這個新 API 的確有比舊的 Assistants API 優秀。
只是 Chat Completions API 目前已是業界 de-facto 標準，OpenAI 也知道不能下架。因此我們得同時看到兩種 API 形式好一陣子囉。

2️⃣ 基於 OpenAI Swarm 框架，正式推出官方的 OpenAI Agents SDK，這也包括在 OpenAI 開發者後台也推出 Logs Trace 功能

個人幾點心得:

對 Computer Use 工具感到稀奇，是用 OpenAI Operator 同款他們微調過的專用模型，可能有比較厲害，會想玩玩看。
File search 工具，熟 RAG 的話你就會自己蓋才好用，這個我會 pass。
Web Search 工具，已有較成熟的第三方服務(tavily 或 exa 或 google，因此這個 OpenAI 內建的搜尋品質會令我打上問號。
Code interpreter 工具，這可以自己蓋或用 e2b.dev/
OpenAI 自己的 logs trace 功能，我一向不太用模型廠商的 trace 服務，因為你的 app 很可能會同時用不同家的模型啊 😅

新的 OpenAI Agents SDK 我覺得值得關注使用，可能會是我認為最好的 Agents 開發框架，我之前就很喜歡 OpenAI Swarm 的 Handoffs 設計。這個正式的 Agents SDK 把更多功能(Guardrails, Voice, Tracing, Structured Outputs 等等)做的更完整了，設計上它也可以改用其他模型，而且最近還支援了很夯的 MCP。

更多討論在我 Facebook 貼文。

🎯 Gemini 2.0 Flash 做 PDF Parsing

用 Gemini 2.0 Flash 處理 PDF 解析被大家發現非常具有成本效益，OCR 準確度也非常好。
在這篇文章中，每一美元 Gemini 2.0 Flash 可以處理 6000 頁 PDF，相比之下其他家都貴得多。

推薦搭配 Structured Outputs 結構化輸出，程式碼可以參考 From PDFs to Insights: Structured Outputs from PDFs with Gemini 2.0

🛠️ Google 發表 Gemini 2.5 Pro

Google 最新推出的 Gemini 2.5 Pro 是一個推理型模型，在各大 benchmark 跟氛圍評測中，獲得了大家的好評。

身為開發者，Gemini API 一直有個問題是實驗版模型的 Rate Limit 給太低。有好長一段時間 Gemini 2.0 Pro 都是實驗版狀態，導致根本無法真正上線使用(實際上一直也沒有脫離實驗版，直接被 2.5 Pro 取代)。
這次 2.5 Pro 一開始也有這個問題，RPM(每分鐘請求次數) 只有 5 下。所幸這次倒是乾脆，在模型發表10天後，就將 Experimental 升級成 Preview 版，Rate Limit 跳成 RPM 可以 1000 次請求(Tier 2)，這次真的可以認真考慮將其整合到實際應用中啦!

📚 Why Do Multi-Agent LLM Systems Fail?

我在去年底的 Agents 演講就有狠狠吐槽質疑了複雜的 Multi-agents 系統沒有效益。這篇 UC Berkeley 的研究深入分析了阻礙 MAS 有效性的挑戰，結果實錘了一個結論：與單代理框架相比，MAS 在常見基準測試中的性能提升其實非常有限。

研究指出，MAS 失敗的根本原因是設計缺陷，而非僅僅是 LLM 本身的局限性。即使 LLM 的能力得到提升，MAS 仍然可能因為 Agents 之間的溝通不暢、角色衝突等問題而失敗。測試結果顯示，第一步（違反任務規範）和最後一步（不正確的驗證）失敗佔比相對較高，這表明系統經常在一開始就偏離軌道，或在完成時無法正確驗證結果。

過度複雜的框架往往會導致更多失敗模式。在 LLM 的幻覺和錯誤對齊問題得到有效改善之前，簡單、定義明確的單一代理可能優於複雜的多代理系統。

我認為像 OpenAI Swarm 這種輕量級的 MAS 實現，才是目前比較可行的模組化方向。它提供了 Multi-Agents 系統的基本功能，同時避免了更複雜系統可能帶來的一些失敗模式。

希望你喜歡這集內容！如果你想更有系統地掌握這些 LLM 開發技術，歡迎報名我的大語言模型 LLM 應用開發工作坊(2025升級版) 課程。也歡迎把這門課推薦給對 LLM 應用開發有興趣的朋友！

– ihower

愛好 AI Engineer 電子報 🚀 VisTW 繁體中文的視覺評測和 Deep Search #25

🔝 大語言模型 LLM 應用開發工作坊 (2025升級版)

🧠 VisTW 繁體中文的視覺評測

🔍 DeepSearch 和 DeepResearch

🌟 OpenAI 新推出的語音模型

👍 OpenAI 新推出的 Agents Tools

🎯 Gemini 2.0 Flash 做 PDF Parsing

🛠️ Google 發表 Gemini 2.5 Pro

📚 Why Do Multi-Agent LLM Systems Fail?

請按讚：

發佈留言

發表迴響取消回覆

🔝 大語言模型 LLM 應用開發工作坊 (2025升級版)

🧠 VisTW 繁體中文的視覺評測

🔍 DeepSearch 和 DeepResearch

🌟 OpenAI 新推出的語音模型

👍 OpenAI 新推出的 Agents Tools

🎯 Gemini 2.0 Flash 做 PDF Parsing

🛠️ Google 發表 Gemini 2.5 Pro

📚 Why Do Multi-Agent LLM Systems Fail?

分享此文：

請按讚：

發佈留言

發表迴響取消回覆