愛好 AI Engineer 週報 🚀 Poe 的 LLM 模型排名 #02

Hello! 你好

我是 ihower，以下是本週 AI Engineer 電子報內容。

Poe AI Chatbot 和 SurgeAI 合作，針對主流可商用的 LLM 進行了系統性評估和排名，代表實際用戶在 Poe 聊天機器人的使用情況。評估項目包括推理能力、非英語流利程度、創造力和寫作能力。以下是一些結果:

* GPT-4 在所有維度都是第一，其他模型只能搶第二名。當然，這裡沒考慮成本，GPT-4 的費用可是其他模型的數十倍昂貴。
* Google PaLM 在非英語能力排第二
* Claude 2 在推理能力排第二，這包括邏輯推理、益智推理、Coding 和計算等
* GPT-3.5-Turbo 在創造力跟寫作排第二

Poe 做的這個評測排行我覺得蠻實用的，目前有在雲端上提供 Token-based 計費的 API 服務，也就是 OpenAI, Google, Claude, Llama 這幾家主流模型。

LLM Token based pricing: Embeddings and LLMs

這是有人整理的價目表，都是 Token based pricing 的 API 服務，根據用量計費。

* Embeddings 價錢都差不多，除了 Google 比別人貴 4 倍 ((如果1 token = 4 char 的話，Google 用 char 來算)
* GPT-3.5 很有競爭力，即使和 Llama 70B 相比。最便宜的是 Anyscale 的 Llama 2 70B
* GPT4 最貴，也比 Claude 2 on Bedrock 貴一倍

如果你還不知道，上述的模型此時此刻都可以呼叫使用了，不需要遙遙無期排隊:

* OpenAI API 只要註冊並刷卡儲值，就可以拿到除了 GPT-4-32k 之外的 API 權限
* Azure OpenAI 需要額外填表單申請，可能要等一週，但通過後會一併拿到 GPT-4-32k 權限。另外，不一定需要找代理商，台灣微軟會開電子發票。
* Google 有兩個產品線提供 PaLM API: Markersuite 跟 Vertex AI 的 Generative AI Studio，後者不需要排隊，進去 GCP 後台就可以使用了
* Claude 的官方需要申請排隊，但是 AWS Bedrock (AWS 剛推出的 API 服務，這也不用排隊了) 可以直接用 Claude 模型不用等
* Llama 2 因為是開源的，蠻多家有提供，例如 AnyScale 、MosaicML、Replicate，至於 AWS Bedrock 也說他們很快推出 Llama 模型。

State of Open Source AI Book – 2023 Edition

這本開源 AI 指南涵蓋內容很多，作者持續更新中，值得每章至少看個開頭。章節包括有:

* 授權: 比較各個模型在權重、訓練資料、輸出是否可商用的授權情況
* 評估: 有哪些排行榜跟 Benchmarks
* 模型: 整理比較了各家模型
* 未對齊的模型: 整理比較了一些沒有保護措施的模型!
* 微調
* 模型格式的比較
* MLOps
* 向量資料庫，比較了各家資料庫
* SDK: 比較了 LangChain, LLamaIndex, LiteLLM
* 桌面軟體: 比較了一些可以跑在本機的模型應用
* 硬體

The Large Language Model Revolution 演講

這場 Google DeepMind 科學家紀懷新博士的演講非常讚，我做了一個截圖筆記可以快速看看，但我非常推薦可以花時間看看。

演講前面講點 AI 歷史和 LLM 將會是革命，接著提到 RAG 跟工具增強。然後講了我覺得最有收穫的 Reasoning 推理。
這時候我才發現我有眼不識泰山，原來 Ed Chi 就是著名 CoT paper 的作者之一，由 paper 作者親自解說果然更是精彩有來龍去脈。

另外一個彩蛋是講者多次提到他同事 Denny (也是 CoT paper 作者) 有一場講 Teach language models to reason，這場投影片內容也很讚，可惜似乎沒有錄影。

—-

以上就是本週內容，希望你會喜歡。最後還是不免俗推一下我的線上直播課程 LLM 應用開發工作坊正在熱銷中，看到非常多有6年經驗以上的資深軟體工程師來報名，讓我感到非常榮幸，讓我們在追求 AI 奧秘的道路上繼續努力前進吧!

– ihower

愛好 AI Engineer 週報 🚀 Poe 的 LLM 模型排名 #02

請按讚：

發佈留言

發表迴響取消回覆

分享此文：

請按讚：

發佈留言

發表迴響取消回覆