轉載自微信公眾號:AI前線
近日,清華 KEG 實驗室與智譜 AI 聯合推出了視覺 GUI Agent——CogAgent,CogAgent 是一個通用的視覺理解大模型,具備視覺問答、視覺定位(Grounding)、GUI Agent 等多種能力,可接受 1120×1120 的高分辨率圖像輸入。在 9 個經典的圖像理解榜單上(含 VQAv2,STVQA, DocVQA,TextVQA,MM-VET,POPE 等)取得了通用能力第一的成績,并在涵蓋電腦、手機的 GUI Agent 數據集上(含 Mind2Web,AITW 等),大幅超過基于 LLM 的 Agent,取得第一。
圖1 在網頁 Agent 數據集 Mind2Web 上的性能
圖2 在手機 Agent 數據集 AITW 上的性能
為了更好地促進多模態大模型、Agent 社區的發展,目前團隊已將 CogAgent-18B 開源至 GitHub 倉庫,并提供了網頁版 Demo。
-
GitHub 項目地址(含開源模型、網頁版 Demo):https://github.com/THUDM/CogVLM
視覺 GUI Agent
基于語言預訓練模型(LLM)的 Agent 是當下熱門的研究話題,其具備良好的應用前景。但受限于 LLM 的模態,它只能接受語言形式的輸入。拿網頁 Aagent 為例,WebAgent 等工作將網頁 HTML 連同用戶目標(例如“Can you search for CogAgent on google”)作為 LLM 的輸入,從而獲得 LLM 對下一步動作的預測(例如點擊按鈕,輸入文本)。
然而,一個有趣的觀察是,人類是通過視覺與 GUI 交互的。比如,面對一個網頁,當給定一個操作目標時,人類會先觀察他的 GUI 界面,然后決定下一步做什么;與此同時,GUI 天然是為了人機交互設計的,相比于 HTML 等文本模態的表征,GUI 更為直接簡潔,易于獲取有效信息。也就是說,在 GUI 場景下,視覺是一種更為直接、本質的交互模態,能更高效完整提供環境信息;更進一步地,很多 GUI 界面并沒有對應的源碼,也難以用語言表示。因此,若能將大模型改進為視覺 Agent,將 GUI 界面以視覺的形式直接輸入大模型中用于理解、規劃和決策,將是一個更為直接有效、具備極大提升空間的方法。
CogAgent 可以實現基于視覺的 GUI Agent,其工作路徑與能力如下:
圖4 CogAgent工作路徑與能力
CogAgent 模型同時接受當前 GUI 截圖(圖像形式)和用戶操作目標(文本形式,例如“search for the best paper in CVPR 2023”)作為輸入,就能預測詳細的動作,和對應操作元素的位置坐標。可以應用于包括電腦、手機的各種場景。受益于 GUI Agent 的可泛化性,CogAgent 能在各類沒見過的場景與任務上都取得良好的性能。論文中展示了更多示例,覆蓋了 PPT、手機系統、社交軟件、游戲等各類場景
CogAgent 的模型結構及訓練方法
據介紹,CogAgent 的模型結構基于 CogVLM。為了使模型具備對高分辨率圖片的理解能力,可以看清 720p 的 GUI 屏幕輸入,團隊將圖像輸入的分辨率大幅提升至 1120×1120(以往的模型通常小于 500×500,包括 CogVLM,Qwen-VL 等)。然而,分辨率的提升會導致圖像序列急劇增長,帶來難以承受的計算和顯存開銷——這也是現有多模態預訓練模型通常采用較小分辨率圖像輸入的原因之一。
對此,團隊設計了輕量級的“高分辨率交叉注意力模塊”,在原有低分辨率大圖像編碼器(4.4 B)的基礎上,增加了高分辨率的小圖像編碼器 (0.3 B),并使用交叉注意力機制與原有的 VLM 交互。在交叉注意力中,團隊也使用了較小的 hidden size,從而進一步降低顯存與計算開銷。
圖5 高分辨率交叉注意力模塊設計
結果表明,該方法可以使模型成功理解高分辨率的圖片,并有效降低了顯存與計算開銷。在消融實驗中,團隊還比較了該結構與 CogVLM 原始方法的計算量。結果表明,當分辨率提升時,使用文中提出的方案(with cross-module,橙色)將會帶來極少量的計算量增加,并與圖像序列的增長成線性關系。特別的,1120×1120 分辨率的 CogAgent 的計算開銷(FLOPs),甚至比 490×490 分辨率的 CogVLM 的 1/2 還要小。在 INT4 單卡推理測試中,1120×1120 分辨率的 CogAgent 模型占用約 12.6GB 的顯存,相較于 224×224 分辨率的 CogVLM 僅高出不到 2GB。
圖5 CogAgent 模型理解高分辨率圖片結果圖
在數據方面,除了 CogVLM 用到的 image caption 數據集之外,團隊在文本識別、視覺定位、GUI 圖像理解方面進行了數據擴充與增強,從而有效提升了 GUI Agent 場景下的性能。(CogAgent 的預訓練和微調數據的采集、生成方法詳細介紹于論文的 2.2 和 2.3 部分。)
來源:AI前線(編輯:凌敏 )
評論 0