愛好 AI Engineer 電子報 🚀 恩尼格瑪評估 #24

歡迎訂閱 📬 愛好 AI Engineer 電子報 過往期數點這 📚

Hello! 各位 AI 開發者大家好 👋

我是 ihower,近期也是新模型齊發,包括 Authropic 首個推理模型 Sonnet 3.7、Elon Musk 的 Grok 3、OpenAI 釋出可能是參數量最大又最昂貴的 GPT-4.5,連 GPT-5 路線 都預告了。

🔝 AI 大神免費教你生活用 AI,入門實例解析互動技巧、工具使用、檔案處理,帶你快速掌握LLM應用!

大神 Andrej Karpathy (前 OpenAI 共同創辦人、特斯拉人工智慧總監) 又錄了一個免費又親切的兩小時入門影片,分享他如何使用 ChatGPT,包括推理模型介紹、各種搭配的工具介紹、多模態模型介紹等等。

影片適合一般初學者特別是 AI 小白,這裡感恩 Fox 大大翻譯繁體中文字幕。

🧠 恩尼格瑪評估 EnigmaEval

人類的最後考試之後,Scale AI 又發了一個超猛的 EnigmaEval 恩尼格瑪評估 🧩 (命名想來出自二戰時的恩尼格瑪密碼機)

這是一個來自全球謎題作家和遊戲大師的原創複雜問題,解謎需要創造性的問題解決能力,以及在數學、邏輯推理、文化知識、語言操作等多個領域中綜合資訊的能力。

共有 1184 個多模態謎題非常艱難,一群人需要花上幾個小時甚至幾天的時間才能解答。

目前所有頂級模型在 Hard set 上的得分為 0%,在 Normal set 上的得分小於 10%。總分最高分是 o1 的 5.65%,然後是 Gemini 2.0 Flash Thinking 1.1%,其他模型都在 1% 以下了….
大家會想知道的 DeepSeek R1 跟 OpenAI o3-mini 因為不支援多模態,不會看圖片,所以就沒辦法參加這個 benchmark 了。

更多討論在我 Facebook 貼文。

👍 Reasoning Model 的 Prompt 最佳實務

這是 OpenAI API 新放出來的 Reasoning best practices 文件,比較了推理模型與傳統 GPT 的差異,提供案例,以及如何有效下 Prompt 給推理模型。

微軟也貼了一篇長文 Prompt Engineering for OpenAI’s O1 and O3-mini Reasoning Models 分享如何對 o1 和 o3-mini 做提示工程。

📚 HtmlRAG: 用 HTML 比純文字更適合做RAG

要讓 LLM 讀網頁,不需要追求轉 Markdown 格式,用清理後的 HTML 餵給 LLM 大模型效果更好!

在 HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems 這篇 paper 中,評測了純文字格式、Markdown 和 HTML 格式,發現 HTML 更適合做 RAG。這是因為 HTML 保留了原始文件中更豐富的語義和結構資訊,相較純文字可以提供更完整的知識脈絡​。

稍微想想也可以理解,LLM 在訓練階段時看過的亂七八糟 HTML,很可能比 Markdown 格式還多。因此完全不需要為了想讓人類易讀,就把原先有意義的 HTML 結構砍光光。

當然,直接用原始的 HTML 問題是有非常多的 source code 的確是多餘,例如 CSS、JavaScript 等等,雜訊很多也浪費 tokens。因此這篇 paper 提出的 HtmlRAG 做法是會做一些清理,包括移除 CSS、移除 Javascript、移除冗長的 HTML 標籤屬性,進一步合併冗餘標籤(例如, 合併嵌套的 div 標籤) 來簡化 HTML 結構等等方式。最後結果在砍掉 94% tokens 後,仍然保持幾乎是資訊無損的,在 RAG 的表現比 Markdown 和純文字格式都好。

除了 Paper,作者也有公開實作程式碼,更多討論在我 Facebook 貼文。

🌟 OpenAI 和 Anthropic 的產品 PM 訪談錄影

看了 OpenAI 跟 Anthropic 首席產品官的訪談,比較喜歡 Anthropic 的 Mike Krieger,深刻展現從研究到產品的深厚功力跟見解,金句很多。

以下隨手摘錄 Mike 的一些內容:

  • 到了 2024-2025 年,構建 AI 驅動功能的產品經理的工作越來越像 “研究產品經理”,而不是傳統的產品經理。
  • 我們內部有專門負責模型能力和開發的”研究產品經理”,也有負責產品界面的產品經理和 API 產品經理。但我們最終意識到,到了 2024-2025 年,構建 AI 驅動功能的產品經理的工作越來越像前者而不是後者。
  • 從產品端決定投入的能力,並與研究團隊一起進行微調。比如開發 Cluade 的 Artifacts 功能時,我們投入了大量時間與研究團隊合作——我想 OpenAI 的 Canvas 也是一樣的流程,對吧?總會有一個共同設計、共同研究、共同微調的過程。這也是在這家公司工作、在這裡做設計的一大特權。
  • 研究的目的是為了通過學習積累經驗,而不是每次都要做出完美的可發佈產品
  • 編寫評估標準將成為產品經理的一項核心技能
  • 一個被低估的技能是用這些模型來做原型設計。我們最優秀的產品經理就是這麼做的。掌握如何使用 AI 工具來快速製作原型,我認為這是一項非常重要的技能。

除了影片,也有逐字稿整理(簡體)
更多討論在我 Facebook 貼文。

🎯 如何構建評估系統: How to Construct Domain Specific LLM Evaluation Systems

這是去年 AI Engineer World’s Fair 大會的演講,介紹了如何建立有效的 LLM 評估系統。建議搭配講者的文章 Your AI Product Needs Evals 一起看。

🛠️ Building Effective Agents 的範例實作

代理人 AI Agents 特輯 #21這題我大力推薦過 Anthropic 的這篇 Building Effective Agents。這篇文章很好的介紹了 Agent 和 Agentic Workflow 模式。

後續社群也有非常好的迴響,基於這篇文章發展出更完整的實作範例,包括:

📚 微調的十大陷阱

Jason Liu 分享了微調 LLM 時常見的自找麻煩陷阱,做微調需要扎實的機器學習知識和工程能力才能做好啊。

🔍 Gitingest: Prompt-friendly codebase

看到想研究的 open source 專案,現在可以這樣做:

  1. gitingest.com/ 將整個 repo 的全部程式碼,轉成單一文字內容
  2. 把內容全部貼到 ChatGPT 或 Claude 來問: 「請研究以下的 source code,跟我講解這個專案的 核心功能與目的、架構、主要流程、程式碼特色、可能的缺點和改進空間」

更多討論在我 Facebook 貼文。


– ihower

發佈留言

發表迴響