想系統性學習如何打造 LLM、RAG 和 Agents 應用嗎? 歡迎報名我的課程 大語言模型 LLM 應用開發工作坊

📊 評估數據結果 google spreadsheets 傳送門 ↗️
Updated(2024/9/23): 新增 Jina Embeddings v3
Updated(2024/9/24): 新增 Voyage-3
Updated(2024/10/22): 新增 mistral-embed
Updated(2025/2/12): 新增 Voyage-3-Large、Chuxin-Embedding、model2vec
Updated(2025/2/12): 有測 Nvidia NV-Embed v2,但模型太大本機跑不動沒結果
Updated(2025/2/13): 新增 Nomic Embed Text V2
Updated(2025/6/16): 新增 Voyage-3.5 跟 Voyage-3.5-lite、voyage-multimodal-3、Cohere Embed 4、Qwen3 Embedding 0.6B 跟 4B
Updated(2025/7/14): 新增 Jina Embeddings v4
Updated(2025/7/15): 新增 gemini-embedding-001
Updated(2025/9/5): 新增 EmbeddingGemma
—
在 RAG 系統中,將文字轉語意向量的 embedding 模型,是非常重要的關鍵檢索環節。
很多人在問繁體中文的 embedding 建議選哪一套,通常大家就推薦比較熟的 OpenAI embedding 模型。
但到底哪一套客觀評測比較好,在 HuggingFace 上雖然有個 MTEB 有 (簡體)中文評測,但幾乎都是中國模型霸榜,而且感覺用簡體中文評測不代表繁體中文。
於是我就想自己跑評測看看,週末花了時間,參考了 Llamaindex 針對 RAG 場景評測 Embedding 模型的方法(Boosting RAG: Picking the Best Embedding & Reranker models),使用聯發科整理的 TCEval-v2 資料集中的台達閱讀理解資料集 drcd,其中有不重複文章段落共 1000 段,以及對應的 3493 個問題。
閱讀全文〈使用繁體中文評測各家 Embedding 模型的檢索能力〉