Hello! 你好
Google 本月初推出了大家期待已久的 Gemini 模型,其中 Ultra 版本對標 GPT-4、Pro 對標 GPT-3.5、Nano 則是給手機裝置使用。
目前英文版 Bard 和 API 已經可使用 Pro 版,而 Ultra 則是說明年才會釋出。
這一期讓我們看看 Google Gemini 推出後的後續迴響,這裡有三條戰線,讓我們展開看看。
(首先是 Ultra 等級)
Steering at the Frontier: Extending the Power of Prompting
話說 Google Gemini Ultra 的 Benchmark 評測,用了特別的 Prompting 技巧去提升分數(詳見我的 Facebook 貼文) ,使用 CoT@32 加上新發明一種 uncertainty routing 的方式去量測,也就是 zero-shot 打不贏、5-shot 打不贏,所以換了一種一般人現實中根本不可能會產生 32 種 CoT 推理路徑且用模型信心指數判斷不同取樣的方式,硬是搞到分數比 GPT-4 高(90.04%)
不過,Google 可以這樣做,那對手當然也可以,於是你就看到這篇打臉文 Steering at the Frontier: Extending the Power of Prompting 了:
微軟上個月的 The Power of Prompting 使用 GPT-4 加上進階的 Prompting 技巧(組合起來他們叫做 Medprompt),就已經可以在醫療領域打敗 Google 專門的微調模型 MedPaLM 2 了。基於同樣的招式再加料一下,微軟就套用在 MMLU 評測把 GPT-4 的分數提升到 90.2%,就超越 Gemini Ultra 成為最新的 SOTA 分數了
細看 Medprompt 主要有三招,可以學習一下:
* Dynamic few-shot selection: 用相似性搜尋出 few-shot 使用的範例
* Self-Generated Chain of Thought: 用 training example 產生 CoT prompt (不是單純用 Let’s think step by step)
* Choice Shuffle Ensembling: 一次產生多個結果選最一致的答案
詳細可以看他們公開的程式碼: github.com/microsoft/promptbase
所以說,改變評測方法玩指標遊戲不是個好主意,大家都可以做一樣的事情再超越對方。
總之,Gemini Ultra 還沒真的出來可以公測,最強模型還沒見真章。
(然後我們來看 Pro 等級)
CMU 評測: An In-depth Look at Gemini’s Language Abilities
這是 CMU 卡內基美隆大學做的一項獨立公平研究 (這有翻譯版) 評測 Gemini Pro。結論是 Pro 接近但還是比 GPT-3.5 Turbo 略遜一點,至於 GPT-4 則是遙遙領先。有趣的是,Google Gemini 在選擇題中,特別喜歡選 (D),相比 GPT 模型比較均衡。
這樣看起來 Gemini Pro 還有什麼優勢? 有的:
1. 這幾天愛卡拉釋出了 TMMLU+ 繁體中文問答測試集 在這個評測中,Gemini Pro 的繁體中文能力比 GPT-3.5 好,佐證了 Gemini 在非英語的能力上表現比較好。
2. Gemini 是個 Multimodality 模型,具備視覺解讀能力,而且能力目前看來和 GPT-4V 同等級 (paper)。
3. Gemini Pro 每分鐘呼叫不超過 60 次就免費(pricing),這點也是非常有競爭力。
既然任何指標感覺都有可以偷加料,有沒有什麼指標是終極公平的呢? 有的,那就是 Chatbot Arena,這是一種盲測評測分數,它讓用戶從瀏覽器比較超過25個LLM的輸出。
大神 Andrej Karpathy 說: I pretty much only trust two LLM evals right now: Chatbot Arena and r/LocalLlama comments section (tweet)
在最新的排行榜上,OpenAI 仍然霸榜,接著是 Anthropic,然後是新進榜的 Mistral Mixtral-8x7B 模型,然後才是 Google Gemini Pro。至於 Meta’s Llama 2 在沒有後續加強微調的情況,已經落在後面了。
上述提到新進榜的 Mixtral-8x7b,目前是最強的開源模型了,表現甚至超越 GPT-3.5。這家 Mistral AI 是一家法國的新創公司,他們使用 MoE (Mixtral of Experts) 混合專家技術在他們原有的 7B 模型上,創造了新的 8x7B 模型。
另外,既然是開源,就代表你可以在自己電腦裝起來,最大的限制就是你記憶體夠不夠。這裡推薦使用 ollama.ai/ 或是 lmstudio.ai/ 等工具,就可以很方便的在本機裝起來。這個 8x7B 應該要 48GB RAM 才夠。目前也有各種 (新) (技) (術) 在減少這個記憶體需求。
(最後看一下 Nano 等級)
Phi-2: The surprising power of small language models
這是微軟推出的迷你開源模型,只有 2.7B,評測效能優於 Gemini Nano。可惜不能商用,而且也不支援中文,不過你可以輕鬆在本機裝起來,速度不錯。
—-
以上就是 Google 在這三個戰線面臨的回應挑戰。
最後,我的 LLM 應用開發工作坊課程,下一梯是實體課 2024/1/6 (六)在五倍學院,歡迎有興趣的朋友報名。
希望你會喜歡這份週報,謝謝。
– ihower