阿里通義千問團隊于12月25日宣布推出開源視覺推理模型QVQ-72B-Preview,該模型基于Qwen2-VL-72B構建,旨在增強視覺推理能力。QVQ-72B-Preview在多個數據集上進行了評估,包括MMMU、MathVista、MathVision和OlympiadBench。
在MMMU基準測試中,QVQ-72B-Preview取得了70.3的分數,顯著超越了Qwen2-VL-72B-Instruct。此外,在MathVista、MathVision和OlympiadBench等專注于數學和科學問題的基準測試中,該模型也表現出色,有效縮小了與領先的最先進的o1模型之間的差距。
盡管QVQ-72B-Preview在視覺推理方面表現優異,但團隊也指出了該模型的一些限制,包括語言混合與切換、遞歸推理、安全和倫理考慮以及性能和基準限制。用戶在部署時應保持謹慎,并注意這些潛在問題。
阿里通義千問團隊表示,QVQ-72B-Preview是一個實驗性研究模型,專注于增強視覺推理能力,未來將繼續優化和改進該模型,以提升其在復雜問題上的表現。