久久精品欧美日韩精品/狠狠色婷婷久久一区二区三区/国产精品午夜无码av体验区/丰满人妻av无码一区二区三区/成人做爰A片免费看网站爱酱

阿里發布通義千問最強 AI 大模型 Qwen3-Max 正式版

DoNews9月24日消息,繼 Qwen3-2507 系列發布之后,阿里云今天宣布推出 Qwen3-Max —— 通義團隊迄今為止規模最大、能力最強的語言模型。

Qwen3-Max-Instruct 正式版在代碼能力和智能體能力方面進一步提升,在涵蓋知識、推理、編程、指令遵循、人類偏好對齊、智能體任務和多語言理解的全面基準測試中均達到業界領先水平。

通義團隊表示,仍在訓練中的 Qwen3-Max-Thinking 已展現出非凡潛力,預計在不久的將來向公眾正式發布這一版本。據介紹,在結合工具使用并增加測試時計算資源的情況下,該“思考”版本已在 AIME 25、HMMT 等高難度推理基準測試中取得 100% 的準確率。

據阿里介紹,Qwen3-Max 模型總參數超過 1T,預訓練使用了 36T tokens。模型結構沿用了 Qwen3 系列的模型結構設計范式,使用了 global-batch load balancing loss。

訓練穩定性:得益于 Qwen3 的 MoE 模型結構設計,Qwen3-Max 的預訓練 loss 穩定平滑。訓練過程一氣呵成,沒有任何 loss 尖刺,也沒有使用訓練回退、改變數據分布等調整策略。

訓練高效性:在 PAI-FlashMoE 的高效多級流水并行策略優化下,Qwen3-Max-Base 訓練效率顯著提升,其 MFU 相比 Qwen2.5-Max-Base 相對提升 30%。

在長序列訓練場景中,進一步使用 ChunkFlow 策略獲得了相比序列并行方案提升 3 倍的吞吐收益,支持 Qwen3-Max 1M 長上下文的訓練。同時,通過 SanityCheck、EasyCheckpoint、調度鏈路優化等多種手段,Qwen3-Max 在超大規模集群上因硬件故障造成的時間損失下降為 Qwen2.5-Max 的五分之一。

據介紹,Qwen3-Max-Instruct 的預覽版已在 LMArena 文本排行榜上穩居全球前三(超越 GPT-5-Chat)。正式發布版本進一步提升了其能力,尤其在代碼生成與智能體表現方面表現卓越。

在專注于解決現實編程挑戰的基準測試 SWE-Bench Verified 上,Qwen3-Max-Instruct 取得了高達 69.6 分的優異成績,穩居全球頂尖模型之列。

此外,在評估智能體工具調用能力的嚴苛基準 Tau2-Bench 上,Qwen3-Max-Instruct 更是實現了突破性表現,以 74.8 分超越 Claude Opus 4 與 DeepSeek-V3.1。

Qwen3-Max 的推理增強版本 —— Qwen3-Max-Thinking,通過集成代碼解釋器并運用并行測試時計算技術,展現了前所未有的推理能力,尤其在極具挑戰性的數學推理基準測試 AIME 25 和 HMMT 上,均取得了滿分。

阿里發布通義千問最強 AI 大模型 Qwen3-Max 正式版
掃描二維碼查看原文
分享自DoNews
Copyright ? DoNews 2000-2025 All Rights Reserved