
Hello! 各位 AI 開發者大家好 👋
我是 ihower,近期也是新模型齊發,包括 Authropic 首個推理模型 Sonnet 3.7、Elon Musk 的 Grok 3、OpenAI 釋出可能是參數量最大又最昂貴的 GPT-4.5,連 GPT-5 路線 都預告了。
🔝 AI 大神免費教你生活用 AI,入門實例解析互動技巧、工具使用、檔案處理,帶你快速掌握LLM應用!
大神 Andrej Karpathy (前 OpenAI 共同創辦人、特斯拉人工智慧總監) 又錄了一個免費又親切的兩小時入門影片,分享他如何使用 ChatGPT,包括推理模型介紹、各種搭配的工具介紹、多模態模型介紹等等。
影片適合一般初學者特別是 AI 小白,這裡感恩 Fox 大大翻譯繁體中文字幕。
🧠 恩尼格瑪評估 EnigmaEval
在人類的最後考試之後,Scale AI 又發了一個超猛的 EnigmaEval 恩尼格瑪評估 🧩 (命名想來出自二戰時的恩尼格瑪密碼機)
這是一個來自全球謎題作家和遊戲大師的原創複雜問題,解謎需要創造性的問題解決能力,以及在數學、邏輯推理、文化知識、語言操作等多個領域中綜合資訊的能力。
共有 1184 個多模態謎題非常艱難,一群人需要花上幾個小時甚至幾天的時間才能解答。
目前所有頂級模型在 Hard set 上的得分為 0%,在 Normal set 上的得分小於 10%。總分最高分是 o1 的 5.65%,然後是 Gemini 2.0 Flash Thinking 1.1%,其他模型都在 1% 以下了….
大家會想知道的 DeepSeek R1 跟 OpenAI o3-mini 因為不支援多模態,不會看圖片,所以就沒辦法參加這個 benchmark 了。
更多討論在我 Facebook 貼文。
閱讀全文〈愛好 AI Engineer 電子報 🚀 恩尼格瑪評估 #24〉