歡迎訂閱 愛好 Generative AI Engineer 電子報 aihao.eo.page/ai-engineer
過往期數點這
Hello! 你好 👋
GPT-4V 和 Google Gemini 模型都有了影像解讀功能,讓之前需要特別用深度學習的影像辨識任務,變成了簡單的 API 呼叫。今天我們來深入看看這個功能。
先分享一個時代情懷,這是 xkcd 在 2014 的梗圖,當時是想表達在CS領域中,很難跟一般人解釋簡單和幾乎不可能的任務。沒想到十年後的今天,這個影像解讀的任務也已經變成簡單了,任何 App 只需要呼叫 GPT-4V API 就可以做出來。
Greg Kamradt 的這則 tweet 貼文,整理了常見的 Use Cases 應用分類,以及網友的示範,非常豐富。
針對 GPT-4V,去年微軟就有發表一個非常詳細的評測報告 The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) 是任何需要深度了解 GPT-4V 能力的必讀之作,這份報告非常長166頁,可以先看看以下摘要精華:
* 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译
* 试过GPT-4V后,微软写了个166页的测评报告,业内人士:高级用户必读
* 另外非常推薦 Ted Chen 的 GPT-4V 微軟評測報告,Ted 使用繁體中文再評測一次
這篇論文用知識密集型的問答來做評測,這裡有論文精選翻譯 GPT-4V 屠榜视觉问答。
其中有針對 Llava-v1.5-13b 這個開源模型一起做比較,以及透過 few-shots 給範例的方式來提升答案準確性和品質。
除了照片,GPT-4V 也可以解讀長條圖、散點圖和表格等,這篇文章用具體問題而不是一般性問題,再加上 CoT 逐步推理的方法,來得到更好的答案。
👊Gemini Pro 的比較評測
Gemini Pro 也有一樣的影像解讀功能,上個月有兩篇論文認真地做了比較評測:
* A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Case
* A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise
兩篇論文都同意 Gemini Pro 非常具有競爭力,兩者也都有一樣的弱點: 空間感知能力不佳,不擅長物體的相對位置,OCR 還不夠可靠。
不過兩篇論文對於兩者輸出風格的結論卻完全不同:
第一篇認為 GPT-4V 偏向精確和簡潔的回答,而 Gemini 則擅長提供詳細、豐富的回答,並附帶相關的圖像和鏈接。
第二篇認為 GPT-4V 偏向提供詳細解釋和中間步驟,而 Gemini 則更喜歡輸出直接而簡潔的答案。
因為實在太詭異了,所以我自己挑了幾張照片簡單實測後,推測第一篇論文應該不是直接用 API 評測的,而是用 Bard 版本(包裹過的聊天app,會有加料的 system prompt)
一樣的圖片我改用 API 後,Gemini Pro 的回答的確是比 GPT-4V 更加簡潔。
🔥視覺代理控制
有一種應用非常吸引眼球,那就是利用影像解讀的能力,即時解讀螢幕上的資訊,然後幫你進行操作控制畫面。例如這篇論文 SeeAct,以及最新的 Chrome extension: AI-Employe
不過,除了圖片解讀的速度還不夠快之外,即使是每個操作有 75% 的成功率,在一個需要連續 5 個步驟的用戶操作流程中,只有 24% 的機會可以一次順利完成,會有很高的機率會需要耗費時間和 API 成本來試錯,對於這種即時性要求較高的應用來說挑戰還是很大。
若對 Multimodal 模型訓練理論有興趣,這篇 Multimodality and Large Multimodal Models 是非常好的科普文章,這裡有簡體中文翻譯。
另外也推薦 edX 課程 LLM Foundation Models from the Ground Up,在 Module 4 – Beyond Text-Based LLMs: Multi-Modality 有介紹理論,這是我的筆記,有很多參考資料。
—-
最後,我的下一次 LLM 應用開發工作坊,會和 ALPHACamp 合作開班在 3/4, 3/6, 3/10 線上直播課,目前超早鳥開放報名中 至 1/26 (五) 23:59
希望你會喜歡這份週報(現在要變成雙週報惹),若有任何回饋或鼓勵,歡迎來信給我,謝謝。
– ihower