愛好 AI Engineer 電子報 🚀 恩尼格瑪評估 #24

歡迎訂閱 📬 愛好 AI Engineer 電子報 過往期數點這 📚

Hello! 各位 AI 開發者大家好 👋

我是 ihower,近期也是新模型齊發,包括 Authropic 首個推理模型 Sonnet 3.7、Elon Musk 的 Grok 3、OpenAI 釋出可能是參數量最大又最昂貴的 GPT-4.5,連 GPT-5 路線 都預告了。

🔝 AI 大神免費教你生活用 AI,入門實例解析互動技巧、工具使用、檔案處理,帶你快速掌握LLM應用!

大神 Andrej Karpathy (前 OpenAI 共同創辦人、特斯拉人工智慧總監) 又錄了一個免費又親切的兩小時入門影片,分享他如何使用 ChatGPT,包括推理模型介紹、各種搭配的工具介紹、多模態模型介紹等等。

影片適合一般初學者特別是 AI 小白,這裡感恩 Fox 大大翻譯繁體中文字幕。

🧠 恩尼格瑪評估 EnigmaEval

人類的最後考試之後,Scale AI 又發了一個超猛的 EnigmaEval 恩尼格瑪評估 🧩 (命名想來出自二戰時的恩尼格瑪密碼機)

這是一個來自全球謎題作家和遊戲大師的原創複雜問題,解謎需要創造性的問題解決能力,以及在數學、邏輯推理、文化知識、語言操作等多個領域中綜合資訊的能力。

共有 1184 個多模態謎題非常艱難,一群人需要花上幾個小時甚至幾天的時間才能解答。

目前所有頂級模型在 Hard set 上的得分為 0%,在 Normal set 上的得分小於 10%。總分最高分是 o1 的 5.65%,然後是 Gemini 2.0 Flash Thinking 1.1%,其他模型都在 1% 以下了….
大家會想知道的 DeepSeek R1 跟 OpenAI o3-mini 因為不支援多模態,不會看圖片,所以就沒辦法參加這個 benchmark 了。

更多討論在我 Facebook 貼文。

閱讀全文〈愛好 AI Engineer 電子報 🚀 恩尼格瑪評估 #24〉

愛好 AI Engineer 電子報 🚀 就是有深度 DeepSeek R1 和 OpenAI Deep Research #23

Hello! 各位 AI 開發者大家好 👋

我是 ihower,這次過年好忙,又是 DeepSeek R1 又是 OpenAI o3-mini,真是春捲啊 🌯🌯🌯

🔝 AI 大神免費深入淺出全面講解大型語言模型、訓練、心理學到實際應用

cover

大神 Andrej Karpathy (前 OpenAI 共同創辦人、特斯拉人工智慧總監) 寫的這個 LLM 模型訓練的比喻(出處 tweet)太讚了,這裡翻譯分享給大家:

讓大型語言模型 (LLMs) 去上學:

當你打開任何一本教科書時,你會看到三種類型的主要內容:

  1. 背景資訊/解說: 這部分是教科書的主要內容,用來解釋各種概念。當你專注閱讀時,大腦正在把這些內容進行學習與訓練。這就相當於「預訓練」(pretraining),模型透過閱讀網路資料,累積背景知識。
  2. 有解答過程的範例題: 這些是專家如何解題的具體案例,示範給學生來模仿學習。對模型來說,這就相當於「監督式微調」(supervised finetuning,縮寫是 SFT),也就是讓模型根據人類撰寫的「理想回覆」來做微調,來提升作為 AI 助理的表現。
  3. 練習題: 這些是給學生的練習題目,通常不會提供解題過程,但都會附上最終答案。每章最後通常會有大量這種題目,目的在於讓學生透過反覆嘗試來學習 – 學生必須嘗試各種方法才能得到正確答案。對模型而言,這相當於「強化學習」(reinforcement learning,縮寫是 RL)

目前我們已經讓模型接受大量的第 1 類(背景知識) 和第 2 類(範例學習)訓練,但第 3 類(練習與試誤學習) 仍然是個新興逐漸開展的新領域。
當我們為模型建立訓練資料集時,本質上與撰寫教科書並無不同,需要同時包含這三種類型的資料。它們必須先閱讀,然後再做大量練習。

大神還接著錄了三個多小時的教學影片,免費深入淺出全面講解大型語言模型、訓練、心理學到實際應用!
這裡感恩 Fox 大大翻譯繁體中文字幕。

閱讀全文〈愛好 AI Engineer 電子報 🚀 就是有深度 DeepSeek R1 和 OpenAI Deep Research #23〉

愛好 AI Engineer 電子報 🚀 AI 應用開發的常見錯誤 #22

歡迎訂閱 📬 愛好 AI Engineer 電子報 過往期數點這 📚

cover

Hello! 各位 AI 開發者大家好 👋

我是 ihower,農曆新年的腳步接近,先在這裡祝福大家新年快樂,萬事如意,財源滾滾! 🧧🧨

🔝 Common pitfalls when building generative AI applications

這篇 Chip Huyen 寫的 “生成式 AI 應用開發的常見錯誤”,歸納出 6 個容易踩雷的地方,實在心有戚戚焉啦。以下結合原文與我自己的經驗,整理出以下六個觀點:

1️⃣ 不該用生成式 AI 的場景硬要用生成式 AI

大模型 LLM 是很厲害,但是很多人對於這項技術的能力不夠了解,硬要把不適合的需求塞給它處理。例如: 最佳化能源消耗、用來檢測流量異常、用來預測電量、檢測病人是否營養不良等等,其實都不適合用生成式 AI 來做。

我個人也碰過公司想要做些營運最佳化和異常檢測,細問才發現資料都是數字型態。這種不是用生成式 AI 啦,而是應該用專門的演算法或是機器學習來做。

2️⃣ 搞混「爛 AI 產品」與「笨 AI 模型」

很多失敗案例其實不是 LLM 模型不夠聰明,而是產品設計和 AI 工程能力的不足。

例如最近最火熱的 AI Coding 產品為例,無論是 GitHub Copilot、Cursor、Windsurf 還是 Devin,背後用的往往都是一樣的 LLM,差別在於產品設計與 AI 工程做得好不好。所謂的 AI 工程能力,主要是指如何有效提供模型所需的 context(透過 prompt chaining、RAG 等技術),讓模型能在正確資料的基礎上產生有用的結果。若缺乏這些工程環節,再強大的模型也只能”巧婦難為無米之炊”

因此你會看到出現 o3 這種可以解決奧數的聰明模型,又同時看到 Devin 處理實際的軟體開發任務還做不好。根本原因可能不是模型太弱,而是整合的 AI 工程還不夠完善。

最近看到一句話是 raw intelligence ≠ intelligent software systems「原始智力」不等於「智慧軟體系統」

大模型的「智力」只是基石,要把它轉化成真正有效的智慧系統,還需要正確的上下文、工具整合以及成熟的工程化流程,這就是 Berkeley AI Research (BAIR) 所提出的 The Shift from Models to Compound AI Systems 的趨勢:領先的 AI 成果越來越依賴「多重元件」協作,而非單純依賴一個大型模型,才能發揮 LLM 的最大潛能,做出好用的 AI 產品。

閱讀全文〈愛好 AI Engineer 電子報 🚀 AI 應用開發的常見錯誤 #22〉

愛好 AI Engineer 電子報 🚀 代理人 AI Agents 特輯 #21

歡迎訂閱 📬 愛好 AI Engineer 電子報 過往期數點這 📚

Hello! 各位 AI 開發者大家好 👋

我是 ihower,這集是 AI Agents 代理人特輯,以下是我的推薦內容。

🔝 淺談 LLM-based AI Agents 應用開發 投影片

這是我在 WebConf Taiwan 2024 分享的演講投影片 PDF(14mb)。雖是淺談但自認誠意滿滿,相信只看投影片也能有不少收穫。

以下是議程介紹:

AI Agent!Multi-Agents!Agentic Workflow! 這些充斥業界的 buzzword 被吹捧得如夢似幻,這場演講將深入淺出探討這項技術,用樸實的技術實作說明其核心原理,揭示其真實的運作、能力範疇與侷限。希望能讓您遇到這些 buzzword 時,不再只是被表面所迷惑,而是能夠看穿其技術本質,洞悉浮華背後的真相。

👍 Building effective agents

由 Anthropic 闡述了關於 Agents 和 Workflow 架構的邏輯,以及常見的設計模式。非常值得一讀。在我投影片中也有引用並補充案例。

開發 LLM 應用的目標並不是要建立最複雜的系統,而是根據需求建立合適的系統。從簡單的提示開始,通過評估最佳化。當需要更多複雜性時,Workflow 提供可控性和一致性。當需要更靈活的模型驅動決策時,代理人 Agent 上場。

閱讀全文〈愛好 AI Engineer 電子報 🚀 代理人 AI Agents 特輯 #21〉

淺談 LLM-based AI Agents 應用開發

2024/12/27 在 WebConf Taiwan 分享的演講投影片 ➡️ 這裡下載PDF(14mb)

如果你還沒有訂閱我的電子報,歡迎訂閱 📬 愛好 AI Engineer 電子報。預告下一期 #21 會是 Agents 特輯,會分享更多 Agents 相關內容。

議程介紹:

AI Agent!Multi-Agents!Agentic Workflow! 這些充斥業界的 buzzword 被吹捧得如夢似幻,這場演講將深入淺出探討這項技術,用樸實的技術實作說明其核心原理,揭示其真實的運作、能力範疇與侷限。希望能讓您遇到這些 buzzword 時,不再只是被表面所迷惑,而是能夠看穿其技術本質,洞悉浮華背後的真相。

目標會眾:

適合對 LLM API 和 Prompt Engineering 有基礎知識的開發者參加

愛好 AI Engineer 電子報 🚀 AI Engineer 的學習 Roadmap #20

cover

Hello! 各位 AI 開發者大家好 👋

我是 ihower,最近大家有關心 OpenAI 連續 12 天的直播發佈會嗎?
不過到目前為止(Day 7)主要都是關於 ChatGPT 產品面的發表,還沒有看到關於開發者 API 的新東西馬上可以玩。

🔝 Inference, Fast and Slow

這篇文章提供了一個圖表是目前模型的推論範式有哪些,算是小小的複習一下。
現在除了大模型小模型,還有最便宜的批次跑、推理型 o1 最聰明、即時 realtime 型(現在還很貴)、快速編輯型(就上一篇電子報我們提到的)。

👍 Developer Roadmap

知名的 Developer Roadmap 路線圖現在也包括 AI EngineerPrompt Engineering Roadmap 了,可以檢查看看你的 AI 知識點有沒有點齊。

閱讀全文〈愛好 AI Engineer 電子報 🚀 AI Engineer 的學習 Roadmap #20〉