
Hello! 你好 👋
GPT-4V 和 Google Gemini 模型都有了影像解讀功能,讓之前需要特別用深度學習的影像辨識任務,變成了簡單的 API 呼叫。今天我們來深入看看這個功能。

先分享一個時代情懷,這是 xkcd 在 2014 的梗圖,當時是想表達在CS領域中,很難跟一般人解釋簡單和幾乎不可能的任務。沒想到十年後的今天,這個影像解讀的任務也已經變成簡單了,任何 App 只需要呼叫 GPT-4V API 就可以做出來。
Greg Kamradt 的這則 tweet 貼文,整理了常見的 Use Cases 應用分類,以及網友的示範,非常豐富。
閱讀全文〈愛好 AI Engineer 週報 🚀 GPT-4V 影像解讀 評測特輯 #07〉