愛好 AI Engineer 週報 🚀 GPT-4V 影像解讀評測特輯 #07

Hello! 你好 👋
GPT-4V 和 Google Gemini 模型都有了影像解讀功能，讓之前需要特別用深度學習的影像辨識任務，變成了簡單的 API 呼叫。今天我們來深入看看這個功能。

🔝xkcd: Tasks

先分享一個時代情懷，這是 xkcd 在 2014 的梗圖，當時是想表達在CS領域中，很難跟一般人解釋簡單和幾乎不可能的任務。沒想到十年後的今天，這個影像解讀的任務也已經變成簡單了，任何 App 只需要呼叫 GPT-4V API 就可以做出來。

🎯影像解讀 Use Cases 應用分類

Greg Kamradt 的這則 tweet 貼文，整理了常見的 Use Cases 應用分類，以及網友的示範，非常豐富。

👍微軟 GPT-4V 研究報告

針對 GPT-4V，去年微軟就有發表一個非常詳細的評測報告 The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) 是任何需要深度了解 GPT-4V 能力的必讀之作，這份報告非常長166頁，可以先看看以下摘要精華:

* 《GPT-4V，多模态大模型的黎明》论文内容精选与翻译
* 试过GPT-4V后，微软写了个166页的测评报告，业内人士：高级用户必读
* 另外非常推薦 Ted Chen 的 GPT-4V 微軟評測報告，Ted 使用繁體中文再評測一次

👊GPT-4V 知識密集的視覺問答評測

這篇論文用知識密集型的問答來做評測，這裡有論文精選翻譯 GPT-4V 屠榜视觉问答。
其中有針對 Llava-v1.5-13b 這個開源模型一起做比較，以及透過 few-shots 給範例的方式來提升答案準確性和品質。

🚧用明確問題和 CoT 技巧解讀圖表

除了照片，GPT-4V 也可以解讀長條圖、散點圖和表格等，這篇文章用具體問題而不是一般性問題，再加上 CoT 逐步推理的方法，來得到更好的答案。

👊Gemini Pro 的比較評測

Gemini Pro 也有一樣的影像解讀功能，上個月有兩篇論文認真地做了比較評測:

* A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Case
* A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise

兩篇論文都同意 Gemini Pro 非常具有競爭力，兩者也都有一樣的弱點: 空間感知能力不佳，不擅長物體的相對位置，OCR 還不夠可靠。
不過兩篇論文對於兩者輸出風格的結論卻完全不同:

第一篇認為 GPT-4V 偏向精確和簡潔的回答，而 Gemini 則擅長提供詳細、豐富的回答，並附帶相關的圖像和鏈接。
第二篇認為 GPT-4V 偏向提供詳細解釋和中間步驟，而 Gemini 則更喜歡輸出直接而簡潔的答案。

因為實在太詭異了，所以我自己挑了幾張照片簡單實測後，推測第一篇論文應該不是直接用 API 評測的，而是用 Bard 版本(包裹過的聊天app，會有加料的 system prompt)
一樣的圖片我改用 API 後，Gemini Pro 的回答的確是比 GPT-4V 更加簡潔。

🔥視覺代理控制

有一種應用非常吸引眼球，那就是利用影像解讀的能力，即時解讀螢幕上的資訊，然後幫你進行操作控制畫面。例如這篇論文 SeeAct，以及最新的 Chrome extension: AI-Employe

不過，除了圖片解讀的速度還不夠快之外，即使是每個操作有 75% 的成功率，在一個需要連續 5 個步驟的用戶操作流程中，只有 24% 的機會可以一次順利完成，會有很高的機率會需要耗費時間和 API 成本來試錯，對於這種即時性要求較高的應用來說挑戰還是很大。

若對 Multimodal 模型訓練理論有興趣，這篇 Multimodality and Large Multimodal Models 是非常好的科普文章，這裡有簡體中文翻譯。
另外也推薦 edX 課程 LLM Foundation Models from the Ground Up，在 Module 4 – Beyond Text-Based LLMs: Multi-Modality 有介紹理論，這是我的筆記，有很多參考資料。

—-

最後，我的下一次 LLM 應用開發工作坊，會和 ALPHACamp 合作開班在 3/4, 3/6, 3/10 線上直播課，目前超早鳥開放報名中至 1/26 (五) 23:59

希望你會喜歡這份週報(現在要變成雙週報惹)，若有任何回饋或鼓勵，歡迎來信給我，謝謝。

– ihower

愛好 AI Engineer 週報 🚀 GPT-4V 影像解讀評測特輯 #07

🔝xkcd: Tasks

🎯影像解讀 Use Cases 應用分類

👍微軟 GPT-4V 研究報告

👊GPT-4V 知識密集的視覺問答評測

🚧用明確問題和 CoT 技巧解讀圖表

👊Gemini Pro 的比較評測

🔥視覺代理控制

📕Multimodality 理論文章

請按讚：

發佈留言

發表迴響取消回覆

🔝xkcd: Tasks

🎯影像解讀 Use Cases 應用分類

👍微軟 GPT-4V 研究報告

👊GPT-4V 知識密集的視覺問答評測

🚧用明確問題和 CoT 技巧解讀圖表

👊Gemini Pro 的比較評測

🔥視覺代理控制

📕Multimodality 理論文章

分享此文：

請按讚：

發佈留言

發表迴響取消回覆