愛好 AI Engineer 週報 🚀 GPT-4V 影像解讀 評測特輯 #07

歡迎訂閱 愛好 Generative AI Engineer 電子報 👉 aihao.eo.page/ai-engineer
過往期數點這

Hello! 你好 👋
GPT-4V 和 Google Gemini 模型都有了影像解讀功能,讓之前需要特別用深度學習的影像辨識任務,變成了簡單的 API 呼叫。今天我們來深入看看這個功能。

🔝xkcd: Tasks

先分享一個時代情懷,這是 xkcd 在 2014 的梗圖,當時是想表達在CS領域中,很難跟一般人解釋簡單和幾乎不可能的任務。沒想到十年後的今天,這個影像解讀的任務也已經變成簡單了,任何 App 只需要呼叫 GPT-4V API 就可以做出來。

🎯影像解讀 Use Cases 應用分類

Greg Kamradt 的這則 tweet 貼文,整理了常見的 Use Cases 應用分類,以及網友的示範,非常豐富。

👍微軟 GPT-4V 研究報告

針對 GPT-4V,去年微軟就有發表一個非常詳細的評測報告 The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) 是任何需要深度了解 GPT-4V 能力的必讀之作,這份報告非常長166頁,可以先看看以下摘要精華:

《GPT-4V,多模态大模型的黎明》论文内容精选与翻译
试过GPT-4V后,微软写了个166页的测评报告,业内人士:高级用户必读
* 另外非常推薦 Ted Chen 的 GPT-4V 微軟評測報告,Ted 使用繁體中文再評測一次

👊GPT-4V 知識密集的視覺問答評測

這篇論文用知識密集型的問答來做評測,這裡有論文精選翻譯 GPT-4V 屠榜视觉问答
其中有針對 Llava-v1.5-13b 這個開源模型一起做比較,以及透過 few-shots 給範例的方式來提升答案準確性和品質。 

🚧用明確問題和 CoT 技巧解讀圖表

除了照片,GPT-4V 也可以解讀長條圖、散點圖和表格等,這篇文章用具體問題而不是一般性問題,再加上 CoT 逐步推理的方法,來得到更好的答案。

👊Gemini Pro 的比較評測

Gemini Pro 也有一樣的影像解讀功能,上個月有兩篇論文認真地做了比較評測: 

*  A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Case
*  A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise

兩篇論文都同意 Gemini Pro 非常具有競爭力,兩者也都有一樣的弱點: 空間感知能力不佳,不擅長物體的相對位置,OCR 還不夠可靠。
不過兩篇論文對於兩者輸出風格的結論卻完全不同: 

第一篇認為 GPT-4V 偏向精確和簡潔的回答,而 Gemini 則擅長提供詳細、豐富的回答,並附帶相關的圖像和鏈接。
第二篇認為 GPT-4V 偏向提供詳細解釋和中間步驟,而 Gemini 則更喜歡輸出直接而簡潔的答案。  

因為實在太詭異了,所以我自己挑了幾張照片簡單實測後,推測第一篇論文應該不是直接用 API 評測的,而是用 Bard 版本(包裹過的聊天app,會有加料的 system prompt)
一樣的圖片我改用 API 後,Gemini Pro 的回答的確是比 GPT-4V 更加簡潔。

🔥視覺代理控制

有一種應用非常吸引眼球,那就是利用影像解讀的能力,即時解讀螢幕上的資訊,然後幫你進行操作控制畫面。例如這篇論文 SeeAct,以及最新的 Chrome extension:  AI-Employe

不過,除了圖片解讀的速度還不夠快之外,即使是每個操作有 75% 的成功率,在一個需要連續 5 個步驟的用戶操作流程中,只有 24% 的機會可以一次順利完成,會有很高的機率會需要耗費時間和 API 成本來試錯,對於這種即時性要求較高的應用來說挑戰還是很大。

📕Multimodality 理論文章

若對 Multimodal 模型訓練理論有興趣,這篇 Multimodality and Large Multimodal Models 是非常好的科普文章,這裡有簡體中文翻譯
另外也推薦 edX 課程 LLM Foundation Models from the Ground Up,在 Module 4 – Beyond Text-Based LLMs: Multi-Modality 有介紹理論,這是我的筆記,有很多參考資料。

—-

最後,我的下一次 LLM 應用開發工作坊,會和 ALPHACamp 合作開班在 3/4, 3/6, 3/10 線上直播課,目前超早鳥開放報名中 至 1/26 (五) 23:59

希望你會喜歡這份週報(現在要變成雙週報惹),若有任何回饋或鼓勵,歡迎來信給我,謝謝。

– ihower

發佈留言

發表迴響