阿里开源最强视觉理解模型Qwen3-VL，Agent和空间感知能力大幅增强- DoNews

9月24日的2025云棲大會上，阿里開源新一代視覺理解模型Qwen3-VL。該模型在視覺感知和多模態推理方面實現重大突破，在32項核心能力測評中超過Gemini2.5-Pro和GPT-5。同時，Qwen3-VL大幅提升了視覺Agent、視覺編程和空間感知等關鍵能力，不但可調用摳圖、搜索等工具完成“帶圖推理”，也可以憑借一張設計草圖或一段小游戲視頻直接“視覺編程”，“所見即所得”地復刻圖表、網頁和復雜程序。

【圖說】：Qwen3-VL-235B-A22 Instruct測評分數

本次開源的是旗艦版Qwen3-VL-235B-A22B，有開源指令（Instruct）模型和推理（Thinking）模型兩大版本。Qwen3-VL展現了在復雜視覺任務中的強大泛化能力與綜合性能，在邏輯謎題、通用視覺問答、多語言文本識別與圖表文檔解析、二維與三維目標定位、具身與空間感知、視頻理解等32項具體測評中，指令版Qwen3-VL超越了Gemini2.5-Pro 和 GPT5 等閉源模型，同時刷新了開源多模態模型的最佳成績。推理版Qwen3-VL多模態思考能力顯著增強，在 MathVision、MMMU、MathVista 等權威評測中達到領先水平。

Qwen3-VL擁有極強的視覺智能體和視覺Coding能力，幾乎刷新所有相關評測的最佳性能。Qwen3-VL 不僅能看懂圖片，還能像人一樣操作手機和電腦，自動完成許多日常任務，例如打開應用、點擊按鈕、填寫信息等，實現智能化的交互與自動化操作。輸入一張圖片，Qwen3-VL可自行調用Agent工具放大圖片細節，通過更仔細的觀察分析，推理出更好的答案；看到一張設計圖，Qwen3-VL 就能生成Draw.io/HTML/CSS/JS 代碼，“所見即所得”地完成視覺編程，真正推動大模型從“識別”邁向“推理與執行”。

Qwen3-VL可支持擴展百萬tokens上下文，視頻理解時長擴展到2小時以上。這意味著，無論是幾百頁的技術文檔、整本教材，還是長達數小時的會議錄像或教學視頻，都能完整輸入、全程記憶、精準檢索。Qwen3-VL還能根據時間戳精確定位“什么時候發生了什么”，比如“第15分鐘穿紅衣服的人做了什么”、“球從哪個方向飛入畫面”等，都能準確回答。

【圖說】：Qwen3-VL的3D檢測能力增強，未來可協助機器人等具身智能判斷物體的方位。

大模型的空間理解能力是實現具身智能的基礎，Qwen3-VL 專門增強了3D檢測（grounding）能力，可以更好地感知空間。當前，機器人想要輕松抓住桌上的一個蘋果，并不容易。憑借Qwen3-VL強大的3D檢測能力，未來可讓機器人更好地判斷物體方位、視角變化和遮擋關系，從而準確判斷蘋果的位置與自身距離，實現精準抓取。

據了解，千問視覺理解模型已實現廣泛落地，比如國家天文臺聯合阿里云發布的全球首個太陽大模型“金烏”，正是基于 Qwen-VL 等模型以超過 90 萬張太陽衛星圖像為樣本完成微調訓練。未來，Qwen3-VL模型還將開源更多尺寸版本。即日起，用戶可在通義千問QwenChat上免費體驗Qwen3-VL，也可通過阿里云百煉平臺調用API服務。

Qwen3-Omni新聞稿

標題1：阿里開源全模態大模型Qwen3-Omni，可像人類一樣聽說寫

標題2：阿里開源全模態大模型Qwen3-Omni，狂攬32項開源最佳表現

9月24日，2025年云棲大會開幕，阿里巴巴發布通義全模態預訓練大模型Qwen3-Omni系列模型。通過引入多種架構升級和技術迭代，Qwen3-Omni系列的模型表現和效率大幅提升。在36個音視頻基準測試中，22項達到SOTA水平，其中32項取得開源模型最佳效果。語音識別、音頻理解與語音對話能力可比肩Gemini 2.5-Pro。

作為全模態模型，Qwen3-Omni能夠實現全模態輸入和全模態輸出。類似于人類嬰兒一出生就全方位感知世界，Qwen3-Omni一開始就加入了“聽”、“說”、“寫”多模態混合訓練。在預訓練過程中，Qwen3-Omni采用了混合單模態和跨模態數據。此前，模型在混合訓練后，各個功能會相互掣肘甚至降智，比如音頻理解能力提升，文字理解能力反而降低了。但Qwen3-Omni在實現強勁音頻與音視頻能力的同時，單模態文本與圖像性能均保持穩定，這是業內首次實現這一訓練效果。

Qwen3-Omni的優異表現源于多種架構升級。Qwen2.5-Omni采用了雙核架構Thinker-Talker，讓大模型擁有了人類的“大腦”和“發聲器”。Qwen3-Omni的Thinker-Talker架構進一步加強，結合AuT預訓練構建強通用表征，配合多碼本設計，響應延遲壓縮至最低。相較于半年前推出的Qwen2.5-Omni，Qwen3-Omni的交互速度更快，純模型端到端音頻對話延遲低至211ms，視頻對話延遲低至507ms；支持的語言更多，包括19種語言音頻輸入、10種語言輸出。

作為一款“會說話”的模型，Qwen3-Omni應用場景廣泛，未來可部署于車載、智能眼鏡和手機等。用戶還可設定個性化角色、調整對話風格，打造專屬的個人IP。相較于傳統的錄音轉文字軟件，Qwen3-Omni能夠處理長達 30 分鐘的音頻文件，無需切割音頻，即可精準識別語音、深度理解內容。

目前，Qwen3-Omni系列已開源三款模型：Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking 和 Qwen3-Omni-30B-A3B-Captioner，值得關注的是，擅長音頻描述的模型Qwen3-Omni-30B-A3B-Captioner為全球首次開源的通用音頻caption模型，可以清晰描述用戶輸入音頻的特征，填補了開源社區空白。

Qwen3-Omni現已在Hugging Face和ModelScope上開放，用戶可訪問Qwen Chat免費體驗Qwen3-Omni-Flash。

【圖說】：Qwen3-Omni測評分數

久久精品欧美日韩精品/狠狠色婷婷久久一区二区三区/国产精品午夜无码av体验区/丰满人妻av无码一区二区三区/成人做爰A片免费看网站爱酱

Qwen3-Omni新聞稿