愛好 AI Engineer 週報 🚀 Google Gemini 各家後續回應 #05

ihower 26 12 月, 202319 7 月, 2025 發佈留言

Hello! 你好

Google 本月初推出了大家期待已久的 Gemini 模型，其中 Ultra 版本對標 GPT-4、Pro 對標 GPT-3.5、Nano 則是給手機裝置使用。

目前英文版 Bard 和 API 已經可使用 Pro 版，而 Ultra 則是說明年才會釋出。

這一期讓我們看看 Google Gemini 推出後的後續迴響，這裡有三條戰線，讓我們展開看看。

(首先是 Ultra 等級)

Steering at the Frontier: Extending the Power of Prompting

話說 Google Gemini Ultra 的 Benchmark 評測，用了特別的 Prompting 技巧去提升分數(詳見我的 Facebook 貼文) ，使用 CoT@32 加上新發明一種 uncertainty routing 的方式去量測，也就是 zero-shot 打不贏、5-shot 打不贏，所以換了一種一般人現實中根本不可能會產生 32 種 CoT 推理路徑且用模型信心指數判斷不同取樣的方式，硬是搞到分數比 GPT-4 高(90.04%)

不過，Google 可以這樣做，那對手當然也可以，於是你就看到這篇打臉文 Steering at the Frontier: Extending the Power of Prompting 了:

微軟上個月的 The Power of Prompting 使用 GPT-4 加上進階的 Prompting 技巧(組合起來他們叫做 Medprompt)，就已經可以在醫療領域打敗 Google 專門的微調模型 MedPaLM 2 了。基於同樣的招式再加料一下，微軟就套用在 MMLU 評測把 GPT-4 的分數提升到 90.2%，就超越 Gemini Ultra 成為最新的 SOTA 分數了

細看 Medprompt 主要有三招，可以學習一下:

* Dynamic few-shot selection: 用相似性搜尋出 few-shot 使用的範例
* Self-Generated Chain of Thought: 用 training example 產生 CoT prompt (不是單純用 Let’s think step by step)
* Choice Shuffle Ensembling: 一次產生多個結果選最一致的答案

詳細可以看他們公開的程式碼: github.com/microsoft/promptbase

所以說，改變評測方法玩指標遊戲不是個好主意，大家都可以做一樣的事情再超越對方。
總之，Gemini Ultra 還沒真的出來可以公測，最強模型還沒見真章。

(然後我們來看 Pro 等級)

CMU 評測: An In-depth Look at Gemini’s Language Abilities

這是 CMU 卡內基美隆大學做的一項獨立公平研究 (這有翻譯版) 評測 Gemini Pro。結論是 Pro 接近但還是比 GPT-3.5 Turbo 略遜一點，至於 GPT-4 則是遙遙領先。有趣的是，Google Gemini 在選擇題中，特別喜歡選 (D)，相比 GPT 模型比較均衡。

這樣看起來 Gemini Pro 還有什麼優勢? 有的:

1. 這幾天愛卡拉釋出了 TMMLU+ 繁體中文問答測試集在這個評測中，Gemini Pro 的繁體中文能力比 GPT-3.5 好，佐證了 Gemini 在非英語的能力上表現比較好。

2. Gemini 是個 Multimodality 模型，具備視覺解讀能力，而且能力目前看來和 GPT-4V 同等級 (paper)。

3. Gemini Pro 每分鐘呼叫不超過 60 次就免費(pricing)，這點也是非常有競爭力。

Chatbot Arena Elo 評測

既然任何指標感覺都有可以偷加料，有沒有什麼指標是終極公平的呢? 有的，那就是 Chatbot Arena，這是一種盲測評測分數，它讓用戶從瀏覽器比較超過25個LLM的輸出。

大神 Andrej Karpathy 說: I pretty much only trust two LLM evals right now: Chatbot Arena and r/LocalLlama comments section (tweet)

在最新的排行榜上，OpenAI 仍然霸榜，接著是 Anthropic，然後是新進榜的 Mistral Mixtral-8x7B 模型，然後才是 Google Gemini Pro。至於 Meta’s Llama 2 在沒有後續加強微調的情況，已經落在後面了。

新黑馬 Mistral 的 Mixtral 8x7B

上述提到新進榜的 Mixtral-8x7b，目前是最強的開源模型了，表現甚至超越 GPT-3.5。這家 Mistral AI 是一家法國的新創公司，他們使用 MoE (Mixtral of Experts) 混合專家技術在他們原有的 7B 模型上，創造了新的 8x7B 模型。

另外，既然是開源，就代表你可以在自己電腦裝起來，最大的限制就是你記憶體夠不夠。這裡推薦使用 ollama.ai/ 或是 lmstudio.ai/ 等工具，就可以很方便的在本機裝起來。這個 8x7B 應該要 48GB RAM 才夠。目前也有各種 (新) (技) (術) 在減少這個記憶體需求。

(最後看一下 Nano 等級)

Phi-2: The surprising power of small language models

這是微軟推出的迷你開源模型，只有 2.7B，評測效能優於 Gemini Nano。可惜不能商用，而且也不支援中文，不過你可以輕鬆在本機裝起來，速度不錯。

—-

以上就是 Google 在這三個戰線面臨的回應挑戰。
最後，我的 LLM 應用開發工作坊課程，下一梯是實體課 2024/1/6 (六)在五倍學院，歡迎有興趣的朋友報名。

希望你會喜歡這份週報，謝謝。

– ihower

發佈留言

發表迴響取消回覆