阿里首个端到端全模态 AI 模型 Qwen3-Omni 发布并开源- DoNews

DoNews9月23日消息，阿里云今日發布并開源了全新的 Qwen3-Omni、Qwen3-TTS，以及對標谷歌 Nano Banana 圖像編輯工具的 Qwen-Image-Edit-2509。

Qwen3-Omni 是業界首個原生端到端全模態 AI 模型，能夠處理文本、圖像、音頻和視頻多種類型的輸入，并可通過文本與自然語音實時流式輸出結果，解決了長期以來多模態模型需要在不同能力之間進行權衡取舍的難題。

Qwen3-Omni 是原生端到端的多語言全模態基礎模型，其核心特性主要包括：

跨模態最先進表現：通過早期以文本為核心的預訓練和混合多模態訓練，模型具備原生多模態能力。在實現強大音頻與音視頻性能的同時，單模態的文本與圖像效果保持不降。

在 36 項音頻 / 視頻基準測試中，22 項達到了最新水平，其中 32 項在開源范圍內處于領先；在自動語音識別（ASR）、音頻理解與語音對話方面表現可與 Gemini 2.5 Pro 相當。

多語言：支持 119 種文本語言、19 種語音輸入語言以及 10 種語音輸出語言。

語音輸入語言：英語、中文、韓語、日語、德語、俄語、意大利語、法語、西班牙語、葡萄牙語、馬來語、荷蘭語、印尼語、土耳其語、越南語、粵語、阿拉伯語、烏爾都語。

語音輸出語言：英語、中文、法語、德語、俄語、意大利語、西班牙語、葡萄牙語、日語、韓語。

創新架構：基于 MoE（專家混合）的“思考者–表達者”設計，并結合 AuT 預訓練以獲得強大的通用表征能力，同時采用多碼本設計以將延遲降至最低。

實時音頻 / 視頻交互：低延遲流式交互，支持自然的輪流對話和即時的文本或語音響應。

靈活控制：可通過系統提示詞自定義行為，實現細粒度控制與輕松適配。

精細音頻描述： Qwen3-Omni-30B-A3B-Captioner 已開源，這是一個通用型、細節豐富、低幻覺率的音頻描述模型，填補了開源社區在該領域的空白。

TTS 即文本轉語音，阿里云此次發布的 TTS 支持 17 種音色選擇，每一種音色均支持 10 種語言。其中不僅包含多國語言，有：普通話、英語、法語、德語、俄語、意大利語、西班牙語、葡萄牙語、日語、韓語；還支持了更多中國方言：閩南語、吳語、粵語、四川話、北京話、南京話、天津話和陜西話。

此外，Qwen3-TTS-Flash 在多項評估基準上均取得了 SoTA 的表現，超越 SeedTTS、MiniMax、GPT-4o-Audio-Preview、Elevenlabs，特別是在語音穩定性和音色相似度。

Qwen-Image-Edit-2509 是 Qwen-Image 月度迭代升級版本，和字節前幾天發布的即夢 4.0 圖像模型一樣主要是一致性上巨大提升。

與 8 月份發布的 Qwen-Image-Edit 相比，Qwen-Image-Edit-2509 的主要改進包括：

多圖像編輯支持：對于多圖像輸入，Qwen-Image-Edit-2509 基于 Qwen-Image-Edit 架構，并通過圖像拼接進一步訓練，以實現多圖像編輯。它支持各種組合，如“人 + 人”、“人 + 產品”和“人 + 場景”。目前在 1 到 3 張輸入圖像時表現最佳。

增強的單圖像一致性：對于單圖像輸入，Qwen-Image-Edit-2509 顯著提高了編輯的一致性，特別是在以下方面：

改進的人像編輯一致性：更好地保留面部身份，支持各種肖像風格和姿勢變換；

改進的產品編輯一致性：更好地保留產品身份，支持產品海報編輯；

改進的文字編輯一致性：除了修改文字內容外，還支持編輯文字字體、顏色和材質；

原生支持 ControlNet：包括深度圖、邊緣圖、關鍵點圖等。

另外，Qwen3-Next-80B-A3B-Instruct-FP8 和 Qwen3-Next-80B-A3B-Thinking-FP8 也已經開源。

久久精品欧美日韩精品/狠狠色婷婷久久一区二区三区/国产精品午夜无码av体验区/丰满人妻av无码一区二区三区/成人做爰A片免费看网站爱酱