
Hello! 你好
我是 ihower,以下是本週 AI Engineer 電子報內容。
Poe bot ranking
Poe AI Chatbot 和 SurgeAI 合作,針對主流可商用的 LLM 進行了系統性評估和排名,代表實際用戶在 Poe 聊天機器人的使用情況。評估項目包括推理能力、非英語流利程度、 創造力和寫作能力。以下是一些結果:
* GPT-4 在所有維度都是第一,其他模型只能搶第二名。當然, 這裡沒考慮成本,GPT-4 的費用可是其他模型的數十倍昂貴。
* Google PaLM 在非英語能力排第二
* Claude 2 在推理能力排第二,這包括邏輯推理、益智推理、Coding 和計算等
* GPT-3.5-Turbo 在創造力跟寫作排第二
Poe 做的這個評測排行我覺得蠻實用的,目前有在雲端上提供 Token-based 計費的 API 服務,也就是 OpenAI, Google, Claude, Llama 這幾家主流模型。
閱讀全文〈愛好 AI Engineer 週報 🚀 Poe 的 LLM 模型排名 #02〉