愛好 AI Engineer 週報 🚀 Google Gemini 各家後續回應 #05

Hello! 你好 👋

Google 本月初推出了大家期待已久的 Gemini 模型,其中 Ultra 版本對標 GPT-4、Pro 對標 GPT-3.5、Nano 則是給手機裝置使用。

目前英文版 Bard 和 API 已經可使用 Pro 版,而 Ultra 則是說明年才會釋出。

這一期讓我們看看 Google Gemini 推出後的後續迴響,這裡有三條戰線,讓我們展開看看。

(首先是 Ultra 等級)

🔝Steering at the Frontier: Extending the Power of Prompting

話說 Google Gemini Ultra 的 Benchmark 評測,用了特別的 Prompting 技巧去提升分數(詳見我的 Facebook 貼文) ,使用 CoT@32 加上新發明一種 uncertainty routing 的方式去量測,也就是 zero-shot 打不贏、5-shot 打不贏,所以換了一種一般人現實中根本不可能會產生 32 種 CoT 推理路徑且用模型信心指數判斷不同取樣的方式,硬是搞到分數比 GPT-4 高(90.04%)

不過,Google 可以這樣做,那對手當然也可以,於是你就看到這篇打臉文 Steering at the Frontier: Extending the Power of Prompting 了: 

微軟上個月的 The Power of Prompting 使用 GPT-4 加上進階的 Prompting 技巧(組合起來他們叫做 Medprompt),就已經可以在醫療領域打敗 Google 專門的微調模型 MedPaLM 2 了。基於同樣的招式再加料一下,微軟就套用在 MMLU 評測把 GPT-4 的分數提升到 90.2%,就超越 Gemini Ultra 成為最新的 SOTA 分數了 😂😂

細看 Medprompt 主要有三招,可以學習一下:

* Dynamic few-shot selection: 用相似性搜尋出 few-shot 使用的範例
* Self-Generated Chain of Thought:  用 training example 產生 CoT prompt (不是單純用 Let’s think step by step)
* Choice Shuffle Ensembling: 一次產生多個結果選最一致的答案

詳細可以看他們公開的程式碼:  github.com/microsoft/promptbase

所以說,改變評測方法玩指標遊戲不是個好主意,大家都可以做一樣的事情再超越對方。
總之,Gemini Ultra 還沒真的出來可以公測,最強模型還沒見真章。


(然後我們來看 Pro 等級)

👍CMU 評測: An In-depth Look at Gemini’s Language Abilities

這是 CMU 卡內基美隆大學做的一項獨立公平研究 (這有翻譯版) 評測 Gemini Pro。結論是 Pro 接近但還是比 GPT-3.5 Turbo 略遜一點,至於 GPT-4 則是遙遙領先。有趣的是,Google Gemini 在選擇題中,特別喜歡選 (D),相比 GPT 模型比較均衡。

這樣看起來 Gemini Pro 還有什麼優勢? 有的:

1. 這幾天愛卡拉釋出了 TMMLU+ 繁體中文問答測試集 👍👍 在這個評測中,Gemini Pro 的繁體中文能力比 GPT-3.5 好,佐證了 Gemini 在非英語的能力上表現比較好。

2. Gemini 是個 Multimodality 模型,具備視覺解讀能力,而且能力目前看來和 GPT-4V 同等級 (paper)。

3. Gemini Pro 每分鐘呼叫不超過 60 次就免費(pricing),這點也是非常有競爭力。

🎯Chatbot Arena Elo 評測

既然任何指標感覺都有可以偷加料,有沒有什麼指標是終極公平的呢? 有的,那就是 Chatbot Arena,這是一種盲測評測分數,它讓用戶從瀏覽器比較超過25個LLM的輸出。

大神 Andrej Karpathy 說: I pretty much only trust two LLM evals right now: Chatbot Arena and r/LocalLlama comments section (tweet)

在最新的排行榜上,OpenAI 仍然霸榜,接著是 Anthropic,然後是新進榜的 Mistral Mixtral-8x7B 模型,然後才是 Google Gemini Pro。至於 Meta’s Llama 2 在沒有後續加強微調的情況,已經落在後面了。

🚧新黑馬 Mistral 的 Mixtral 8x7B

上述提到新進榜的 Mixtral-8x7b,目前是最強的開源模型了,表現甚至超越 GPT-3.5。這家 Mistral AI 是一家法國的新創公司,他們使用 MoE (Mixtral of Experts) 混合專家技術在他們原有的 7B 模型上,創造了新的 8x7B 模型。

另外,既然是開源,就代表你可以在自己電腦裝起來,最大的限制就是你記憶體夠不夠。這裡推薦使用 ollama.ai/ 或是 lmstudio.ai/ 等工具,就可以很方便的在本機裝起來。這個 8x7B 應該要 48GB RAM 才夠。目前也有各種 () () () 在減少這個記憶體需求。


(最後看一下 Nano 等級)

👊Phi-2: The surprising power of small language models

這是微軟推出的迷你開源模型,只有 2.7B,評測效能優於 Gemini Nano。可惜不能商用,而且也不支援中文,不過你可以輕鬆在本機裝起來,速度不錯。

—-

以上就是 Google 在這三個戰線面臨的回應挑戰。
最後,我的 LLM 應用開發工作坊課程,下一梯是實體課 2024/1/6 (六)在五倍學院,歡迎有興趣的朋友報名。


希望你會喜歡這份週報,謝謝。

– ihower

發佈留言

發表迴響