智譜技術團隊于12月26日通過其公眾號宣布,開源了CogAgent-9B-20241220模型。這一模型基于GLM-4V-9B訓練,專為智能體(Agent)任務設計,僅需屏幕截圖作為輸入,無需HTML等文本表征,便能根據用戶指定的任務,結合歷史操作,預測下一步的GUI操作。
CogAgent-9B-20241220模型的普適性使其可廣泛應用于個人電腦、手機、車機設備等基于GUI交互的場景。相較于2023年12月開源的第一版CogAgent模型,新版本在GUI感知、推理預測準確性、動作空間完善性、任務普適性和泛化性等方面均實現了顯著提升,并支持中英文雙語的屏幕截圖和語言交互。
該模型的輸入僅包含用戶的自然語言指令、已執行歷史動作記錄和GUI截圖,無需任何文本形式表征的布局信息或附加元素標簽信息。其輸出涵蓋思考過程、下一步動作的自然語言描述、下一步動作的結構化描述以及下一步動作的敏感性判斷四個方面。
CogAgent-9B-20241220在多個數據集上進行了測試,并與GPT-4o-20240806、Claude-3.5-Sonnet等模型進行了比較,結果顯示其在多個數據集上取得了領先的結果,證明了其在GUI Agent領域強大的性能。