愛好 AI Engineer 週報 🚀 各家新模型和觀察重點 #09

Hello! 你好 👋

我是 ihower,自上期發刊後,這一個多月各大廠商馬不停蹄推出了一批新模型,讓我們回顧一下消息和重點整理。

🔝Google Gemini Pro 1.5 (2024/2/15) 超長的 Context window 

Google 推出的 Gemini Pro 1.5 特色在於高達 1000k 的 context window,這對於 RAG 應用的開發將帶來不少影響,詳見我看技術報告的一些心得和留言
不過一直到今天,無論是 Gemini Ultra 或是 Gemini Pro 1.5,都還是無法使用 API 方式進行實際評測,讓人對於不斷   的 Google 感到憂心啊。 

🔥OpenAI Sora (2024/2/15) 無情輾壓競爭對手

在 2/15 同一天(故意?)發布,搶光 Google 風采的 OpenAI Sora,是個完全是降維打擊的 Text-to-Video 影片生成模型。
當人家的影片生成還只是幾秒鐘微微動幾下的時候,Sora 直接提升到長達一分鐘的短影片。
除了 OpenAI 的技術報告,微軟也有出篇 Paper 回顧整理。另外推薦以下兩個科普影片: 

Sora,OpenAI 突破性的影片生成模型!10分鐘了解其原理以及可能的影響
Sora Q&A | 何時可用?OpenAI 沒講的事?

🎯Mistral Large (2024/2/26)

這家法國新創公司 Mistral 的開源模型 8x7B 表現非常好,獲得非常多人的好評。這是他們推出的最新 *不開源* 封閉模型 Large。
這家公司也和微軟 Azure 戰略合作,可在 Azure 上使用 Mistral Large。

不過在閉源模型的選擇上,要和 OpenAI、Anthropic、Google 這三家同台競爭不容易啊。
因此我主要的關注點會放在開源模型上,例如聯發科就有基於 Mistral 7B 開源模型做了中文語料的訓練,推出 Breeze-7B,詳見 Blog 公告。

❤️Claude 3 (2024/3/4) 終於追上 GPT-4

由 Anthropic 推出的最新模型,有三個大小的型號 Opus、Sonnet、Haiku,表現非常令人驚艷,比起上一代改進非常多。
最強的 Opus 模型在Chatbot Arena 排行榜與 GPT-4T 並列第一,在社群上很多人的評測也比 GPT-4 更好。
Claude Pro (網頁app) 近期也開放台灣用戶可以付費升級,目前已成為我個人最愛,他們也大方公開預設的 System prompt
可惜這個 Claude app 最大的缺點是比起其他家功能最少,完全沒有內建任何工具(無外聯搜尋功能、也無法生圖)

除了模型的推理能力,這三個型號同時都具備 Vision 視覺解讀功能,而且中文辨識超強,比 GPT-4V 跟 Gemini 都來的厲害。
目前只可惜的是 Function Calling 功能還不完備,只能透過 prompt 中特殊的 XML 語法來使用,還沒有提供 API 參數的方式。

Claude 也有和 AWS 戰略合作,可以在 AWS Bedrock 上使用這個模型。
然後我一直也蠻喜歡他們的 Prompting Engineering 文件,這次還新出了 Prompt Library 提示詞範例庫,也更新了 anthropic-cookbook 範例程式碼,超讚。

👐Grok-1 (2024/3/17) 至今最大的開源基礎模型

Elon Musk 的 xAI 開源了 Grok-1 基礎模型,這是一個 374B MoE 架構的大模型,這是目前開源模型中最大的基礎模型了。
由於參數量非常大,加上這是 raw base model (沒有對話微調),因此一般人還用不上。期待後續有單位基於這個基礎模型,做出實用的微調模型。

👊Groq (2024/2) 超快的推論速度

近期還有一個爆炸消息是 Groq 這家公司,推出了推論速度非常快的 LPU 晶片,速度是人家的18倍。並且在網頁上公開讓人試用,也開放了 API。
目前提供了 Mixtral-8x7b 和 Llama2-70b 和 Gemma-7b 等開源模型。

由於速度快的不像話,社群中討論起他的硬體成本: 照這篇的分析,相比 Nvidia H100 跑一樣的大模型,Groq 的硬體成本可能會是快40倍。
不過他提供的 API 價目表並沒有比較貴,Llama 2 70B 一樣是行情價 0.7 per 1M tokens,這有官方回應以及CEO回應: 硬體我們自己研發的,沒這麼貴啦。

對於這個新對手,Nvidia 老黃的回應是: 就算對手免費提供晶片,用 NVIDIA 還是更划算。

🚧OpenAI GPT-4.5 還沒有推出,一切都是八卦 

在 Claude 3 超越 GPT-4 之後,大家期待是不是 GPT-4.5 該出了。
特別是 2024/3/14 是 OpenAI 發布 GPT-4 一週年紀念,結果再次落空。現在大家八卦的外洩截圖說是六月。

– ihower

發佈留言

發表迴響