Arm Lumex CSS 平臺(tai)支持實時端側(ce) AI 用例,覆(fu)蓋智能(neng)助手(shou)、語音翻譯及(ji)個性化服務;依托搭載(zai)全新 SME2 技(ji)術的 Arm CPU,該平臺(tai)可實現高達五倍的 AI 性能(neng)提升(sheng)。
開發者可借助 KleidiAI 調用 SME2 技術帶(dai)來的(de)性能優(you)勢;目前 KleidiAI 已集成至(zhi)所有(you)主流(liu)移動操作(zuo)系統及(ji) AI 框架中(zhong),包括 PyTorch ExecuTorch、谷歌 LiteRT、阿里巴巴 MNN 及(ji)微軟 ONNX Runtime。
針(zhen)對(dui)旗(qi)艦級設(she)備(bei),Arm Lumex CSS 平臺創造了前所未有的成就——連續六(liu)年締造兩(liang)位數(shu)的每時鐘周期(qi)指令數(shu) (IPC) 性能提升。
全新 Mali G1-Ultra 專為游戲玩家設計,可帶來兩倍(bei)的光線追蹤性能提升,重新定義移動娛樂體驗。
Arm 控(kong)股(gu)有限公司今(jin)日(ri)宣(xuan)布推出(chu)全新 Arm? Lumex? 計算子系(xi)統 (Compute Subsystem, CSS) 平臺(tai),這是一套(tao)專(zhuan)為(wei)旗艦級(ji)智能(neng)(neng)手機及下(xia)一代個人電腦(nao)加速其人工智能(neng)(neng) (AI) 體(ti)驗(yan)的(de)先進計算平臺(tai)。Lumex CSS 平臺(tai)集成了搭(da)載第二代可(ke)伸(shen)縮矩陣(zhen)擴展 (SME2) 技(ji)術的(de)最高性(xing)能(neng)(neng) Arm CPU、GPU 及系(xi)統 IP,不僅能(neng)(neng)助力生態伙(huo)伴更快將 AI 設備推向市場,還可(ke)支持桌面(mian)級(ji)移動游(you)戲、實時翻(fan)譯(yi)、智能(neng)(neng)助手及個性(xing)化應用等多樣的(de)豐富(fu)體(ti)驗(yan)。
Arm 高級副總(zong)裁兼終端事業部總(zong)經理(li) Chris Bergey 表(biao)示:“AI 已(yi)不(bu)再僅僅是(shi)一(yi)項技(ji)術功能(neng),它(ta)已(yi)成為下(xia)一(yi)代移動與(yu)消費(fei)技(ji)術的(de)支撐(cheng)底(di)座。依(yi)托 Arm Lumex 平臺(tai),我們持續提升端側 AI 體驗,以滿足用戶日益增長的(de)需求與(yu)期待。為此,我們正積極將 SME2 技(ji)術擴展至每一(yi)個 CPU 平臺(tai)。預(yu)計(ji)到(dao) 2030 年,SME 與(yu) SME2 技(ji)術將為超過 30 億(yi)臺(tai)設備(bei)新增超 100 億(yi)TOPS 的(de)計(ji)算能(neng)力,為端側 AI 性能(neng)帶來(lai)指數級躍升。”
合作伙伴可(ke)靈活(huo)選擇使用(yong) Arm Lumex 的(de)方式,為其(qi)打造系(xi)統級芯(xin)片(pian) (SoCs)。例如,他們可(ke)直(zhi)接采用(yong) Arm 交付的(de)平臺,并借助為其(qi)需求定制的(de)先進物理實現方案,從而獲得(de)縮(suo)短產品(pin)上市時間和(he)快速兌現性能價值(zhi)等雙重優勢;或者,合作伙伴也可(ke)根據他們的(de)目標市場(chang),對(dui)平臺寄存器傳輸級 (RTL) 設計進行(xing)配(pei)置(zhi),并自(zi)行(xing)完成核(he)心模塊(kuai)的(de)硬化(hua)工作。
全新(xin) Arm Lumex 平臺(tai)包含以(yi)下核(he)心組件:
- 新一代搭載 SME2 技術的 Armv9.3 CPU 集群:包括 Arm C1-Ultra 和 Arm C1-Pro,為旗艦設備提供支持
- Arm C1-Premium:專為次旗艦市場打造,可提供一流的面積效率
- Arm Mali? G1-Ultra GPU:配備新一代光線追蹤技術,在實現先進的圖形和游戲體驗同時,還可提升整體 AI 性能
- Arm C1-DSU:Arm 迄今為止最靈活、高能效且具多種電源模式的 DynamIQ Shared Unit (DSU)
- 針對三納米工藝節點優化的物理實現
- 跨軟件棧的深度集成,為使用 KleidiAI 軟件庫的開發者提供無縫的 AI 加速體驗
搭載(zai) SME2 技術的 CPU:助力實現全場(chang)景(jing) AI 加速
搭載 SME2 的(de)(de) Arm C1 CPU 集群,為實際場(chang)景中的(de)(de) AI 驅動型任務帶來了顯著的(de)(de) AI 性能提升,包括(kuo):
- AI 性能提升高達五倍
- 語音類工作負載延遲降低 4.7 倍
- 音頻生成速度提升 2.8 倍
全(quan)新的(de)(de) Arm CPU 在(zai)(zai) AI 計算能力上的(de)(de)飛躍,讓(rang)實時的(de)(de)端側 AI 推理成為現實,為用戶(hu)在(zai)(zai)音頻(pin)生成、計算機視覺及情境助手(shou)等多種交(jiao)互場景(jing)中帶來(lai)更(geng)流(liu)暢(chang)、更(geng)快速的(de)(de)體驗。
在實(shi)際(ji)場景(jing)中(zhong),SME2 技術將(jiang)響應(ying)(ying)速度(du)與(yu)(yu)運(yun)行(xing)效率(lv)提升(sheng)至全新水平。例如,在“智(zhi)能瑜伽(jia)教練”演示應(ying)(ying)用(yong)(yong)中(zhong),得益于(yu) SME2 技術,該應(ying)(ying)用(yong)(yong)的(de)(de)(de)文本(ben)轉語音生成速度(du)提升(sheng)了 2.4 倍(bei),這意味著用(yong)(yong)戶能即時(shi)(shi)獲得姿勢反饋與(yu)(yu)指導,且全程不用(yong)(yong)擔心(xin)設(she)備(bei)(bei)的(de)(de)(de)電池續(xu)航(hang)問題。此外,通過 Arm、支付(fu)寶(bao)與(yu)(yu) vivo 的(de)(de)(de)三方合作(zuo)下,將(jiang)大語言模型(xing) (LLM) 的(de)(de)(de)交(jiao)互響應(ying)(ying)時(shi)(shi)間縮短了多達 40%,充分證明(ming)了 SME2 可為終端設(she)備(bei)(bei)帶來更快(kuai)速的(de)(de)(de)實(shi)時(shi)(shi)生成式 AI 體驗(yan)。
SME2 技術的價值不僅在(zai)于(yu)速(su)度的提升,更(geng)在(zai)于(yu)釋放(fang)出(chu)傳統 CPU 無法(fa)企及的 AI 驅動功(gong)能(neng)。例如,在(zai)搭載 SME2 的單個(ge)核心上(shang)運(yun)行神經攝像(xiang)(xiang)頭降噪功(gong)能(neng),可以在(zai) 1080P 分辨(bian)率(lv)下實(shi)現(xian)幀率(lv)超(chao) 120 幀/秒 (fps),或在(zai) 4K 分辨(bian)率(lv)下實(shi)現(xian)幀率(lv)達 30fps。這使得智能(neng)手(shou)機用戶(hu)即使身處光線(xian)最暗的場景,也(ye)能(neng)捕(bu)捉(zhuo)到(dao)更(geng)銳利、清(qing)晰的圖(tu)像(xiang)(xiang),進而在(zai)日常(chang)設(she)備(bei)上(shang)獲得更(geng)流暢的操作交互(hu)與(yu)更(geng)豐富(fu)的使用體驗(yan)。
不同于受到延遲、成本(ben)及隱私問(wen)題等挑戰的云優先 AI,Lumex 將(jiang)智能(neng)引入設備端(duan),能(neng)夠在本(ben)地實現更快、更安全且隨時可用的智能(neng)體驗。SME2 已經廣受業界領先生態伙(huo)伴(ban)的采用,包括阿(a)里巴(ba)巴(ba)、支付寶(bao)、三星 System LSI、騰訊及 vivo。
為全(quan)線(xian)產(chan)品層級(ji)賦予架構自由
Arm Lumex 為合作(zuo)伙(huo)伴(ban)提(ti)供(gong)了充分的(de)(de)自由度,使(shi)其(qi)能從高端智能手機、PC 到新興 AI 優先(xian)設備的(de)(de)各類產品中(zhong),實現峰值性(xing)能、持續(xu)能效與芯片面積之間(jian)的(de)(de)靈(ling)活(huo)平衡。
CPU |
主要優勢 |
性能與能效提升 |
理想應用場景 |
Arm C1-Ultra |
旗艦級峰值性能 |
單線(xian)程性(xing)能提升 25%,IPC 性(xing)能同比實現兩位數增長 |
大模型推(tui)理、計算攝影、內容創作、生成 式 AI |
Arm C1-Premium |
兼具 C1-Ultra 性能且面積效率更優 |
相較于 C1-Ultra 面積縮減 35% |
次旗艦移動設備(bei)市場、語音助手、多(duo)任(ren)務處理 |
Arm C1-Pro |
持久高能效 |
持(chi)續性能提(ti)升 16% |
視頻播放、流式推理 |
Arm C1-Nano |
極致能效 |
效率(lv)提升 26%,面積更(geng)小 |
可穿戴(dai)設備、超小型設備 |
Mali GPU:實現桌面級游戲體驗和更(geng)快(kuai)的 AI 推(tui)理(li)
隨著搭載 Arm GPU 的(de)(de)(de)芯片累(lei)計出貨量(liang)突破 120 億顆,Arm 持續穩居手游體驗領域的(de)(de)(de)核心(xin)地位。全(quan)新的(de)(de)(de) Arm Mali G1-Ultra GPU 進一步(bu)突破移動游戲的(de)(de)(de)性能邊(bian)界(jie),為(wei)手游玩家帶來高保真、主機級畫質。這一突破得益于全(quan)新的(de)(de)(de)第二代光線追蹤 (Ray Tracing Unit v2, RTUv2) 技(ji)術,該技(ji)術顯(xian)著提升光照、陰影(ying)與反射效(xiao)果,使其光線追蹤性能相(xiang)較前(qian)代提升了(le)兩倍。在(zai) AI 工作負載方面,Mali G1-Ultra 可將推理性能提升最高 20%,顯(xian)著增強各(ge)類實時應用的(de)(de)(de)響應速度。
在各類圖形基準測試中,Mali G1-Ultra 較(jiao)前代產(chan)品實現了(le) 20% 的性能(neng)(neng)提(ti)升,為《暗(an)區突圍:無限》、《堡壘(lei)之夜》、《原神》、《崩壞:星穹鐵道》等主流游戲帶來(lai)了(le)全面(mian)的性能(neng)(neng)增強。同(tong)時(shi),Mali G1-Premium 與 Mali G1-Pro 兩款 GPU,也為硬(ying)件(jian)資源(yuan)受(shou)限的設(she)備提(ti)供了(le)更出色的性能(neng)(neng)與能(neng)(neng)效表現。
開發者友好的(de)端側 AI 解決方案
開發者(zhe)可在 Arm Lumex 平臺上獲取開機即用的(de) AI 開發體驗。通過 KleidiAI 與各大主流框架(jia)的(de)集成,包(bao)括(kuo) PyTorch ExecuTorch、Google LiteRT、阿里巴巴 MNN 及微軟 ONNX Runtime,開發者(zhe)無需修改(gai)任何代(dai)碼(ma),即可自動取得 SME2 的(de)加速能(neng)力。
對于需要構建跨(kua)平臺應(ying)用的(de)開發者而言,Lumex 帶來了全(quan)新的(de)可遷移性(xing):
- Gmail、YouTube 和 Google Photos 等 Google 應用現已全面支持 SME2 ,搭載 Lumex 的設備一經上市即可無縫運行
- 跨平臺可遷移性意味著針對安卓構建的優化功能可無縫擴展至采用 Arm 架構的 Windows 及其他操作系統
- 支付寶等合作伙伴已成功驗證:依托 SME2 技術,終端設備上的大語言模型 (LLM) 可實現高效運行。
Apple、三星(xing)和 MediaTek 等(deng)科技領軍企(qi)業,正(zheng)積(ji)極集成 AI 加(jia)速(su)功能(neng)(neng),推動端(duan)側 AI 向更(geng)快速(su)、更(geng)高(gao)效的方向發(fa)展。其中,Apple 正(zheng)憑借該能(neng)(neng)力為“蘋果智(zhi)能(neng)(neng)” (Apple Intelligence) 提(ti)供核(he)心支撐;三星(xing)與 MediaTek 則(ze)借助(zhu) Google Gemini 提(ti)升翻譯、摘要(yao)、個人助(zhu)手(shou)等(deng)實時(shi) AI 應(ying)用(yong)的響應(ying)速(su)度與運行效率。
Arm Lumex:AI 時(shi)代的平臺級智(zhi)能
Arm Lumex 不僅是(shi)(shi) Arm 面(mian)向消費計(ji)算(suan)市場的最先(xian)進 CSS 平臺,更是(shi)(shi)開(kai)啟新時代智能 AI 體驗(yan)的基石。無論是(shi)(shi) OEM 廠商還是(shi)(shi)開(kai)發者,Lumex 均可提供所需工具,助力其在關鍵端(duan)側(ce)場景實(shi)現兼(jian)具個性化、隱私(si)保(bao)障與高性能的 AI 體驗(yan)。作為專(zhuan)為 AI 時代打造(zao)平臺, Arm Lumex 將成為未來移動(dong)創新的全新起點。
Arm Mali G1-Ultra 重新定義游戲與 AI 體(ti)驗(yan)
Mali G1-Ultra 專為新一代(dai)手游和 AI 體驗(yan)(yan)打造,通(tong)過(guo)以下(xia)設(she)計在移動設(she)備(bei)上(shang)實現高端沉浸(jin)式游戲(xi)體驗(yan)(yan):
- 新一代 Arm 光線追蹤單元 RTUv2;
- 加速的端側 AI;
- 重構圖形管線;
- 單一目標導向設計中的增強型架構效率。
與前一代(dai) Arm Immortalis-G925 GPU 相(xiang)比,Mali G1-Ultra 的光線追蹤性(xing)能提(ti)升高達兩(liang)倍(bei),并(bing)在主流(liu)圖形基準測試(shi)中,性(xing)能表現提(ti)升 20%。在 AI 方(fang)面,通過新的 FP16 矩陣計算路徑(jing),該 GPU 在 AI 與機器(qi)學習網絡上的推(tui)理(li)速度(du)比 Immortalis-G925 快(kuai)上 20%。此外,Mali G1-Ultra 還改(gai)進了內存、調(diao)度(du)和開發者工具,使 Arm 生態系統(tong)能夠在不犧牲功耗或效率(lv)的情況(kuang)下,擴展視覺(jue)和智能性(xing)。
除了面向(xiang)旗艦智能手機的(de) Mali G1-Ultra,Arm 還推出 Arm Mali G1-Premium 和(he)(he)Mali G1-Pro GPU,旨在提(ti)供可(ke)擴展的(de)性能和(he)(he)能效選(xuan)擇(ze),以滿足不同移動設備市(shi)場和(he)(he)產品層級的(de)需求(qiu)。Mali G1 GPU 系(xi)列提(ti)供從 1 到 24 個(ge)著色器核心選(xuan)項,使系(xi)統級芯片(pian) (SoC) 設計商(shang)能夠根據其目標(biao)市(shi)場和(he)(he)特定需求(qiu),靈(ling)活(huo)配(pei)置 GPU。
新(xin)一代光線追蹤實現(xian)桌面級(ji)手游體驗
如今的(de)熱門游(you)戲應用正在不斷挑(tiao)戰(zhan)移動設(she)備上(shang)的(de)硬件極限,追求更(geng)(geng)先進的(de)渲(xuan)染、更(geng)(geng)流暢的(de)幀(zhen)率的(de)同時(shi),能效依舊要維持在原定(ding)的(de)水平。針對(dui)這些應用,Mali G1-Ultra 帶來了全面的(de)性能提(ti)升,包括:
- 在《暗區突圍》中,性能提升 25%;
- 在《崩壞:星穹鐵道》中,性能提升 19%;
- 在《原神》中,性能提升 17%;
- 在《堡壘之夜》中,性能提升 11%。
- 在 Arm 內部游戲演示《Mori 林間鼯語》中,性能提升 26%。
除了(le)為上述實(shi)際(ji)應用(yong)的(de)(de)(de)性能帶來提升(sheng)之外,得益于 Mali G1-Ultra 中的(de)(de)(de) RTUv2,在啟用(yong)硬件光線(xian)(xian)追蹤(zong)(zong)的(de)(de)(de)游(you)戲中,光線(xian)(xian)追蹤(zong)(zong)性能可提升(sheng)兩(liang)倍,幀率可提升(sheng) 40%。新的(de)(de)(de)光線(xian)(xian)追蹤(zong)(zong)單元專為移動端的(de)(de)(de)實(shi)時性能而(er)打造,實(shi)現了(le)桌面(mian)級的(de)(de)(de)光照、反射與陰影。
與(yu)前一代 RTUv1 相比,RTUv2 更加智能(neng)(neng),且采用單光線模(mo)型,大幅增強(qiang)對非(fei)一致性光線的支(zhi)持,并(bing)成(cheng)為完全獨立的硬件單元。這些設(she)計變化帶來了顯(xian)著的能(neng)(neng)效與(yu)性能(neng)(neng)優勢。例如(ru),其模(mo)塊(kuai)化架構與(yu)獨立電源(yuan)域使得(de) RTUv2 可在設(she)備空閑(xian)時(shi)斷電,從(cong)而(er)為其他任務(wu)節(jie)省電力。
鑒于通(tong)過 RTUv2 實現(xian)的(de)性能(neng)與能(neng)效平(ping)衡的(de)優勢,Mali G1-Ultra 能(neng)在旗艦智能(neng)手機上實現(xian)長時(shi)間的(de)游戲體(ti)驗(yan),使其成為旗艦智能(neng)手機的(de)理想配置。
邊緣側實時智能加速
AI 正在重(zhong)塑移動設備思考、感(gan)知(zhi)與響(xiang)應的(de)方(fang)式(shi),而 GPU 在這一演(yan)進歷(li)程中扮演(yan)著關(guan)鍵角(jiao)色。Mali G1-Ultra 引入(ru)新的(de)矩陣(zhen)乘(cheng)法單元 (MMUL) FP16 指令,可加(jia)速如語(yu)(yu)義分割(ge)、去(qu)噪、深度估計、物體(ti)檢測、語(yu)(yu)音識別和圖像增強(qiang)等(deng)端側(ce)關(guan)鍵 AI 工(gong)作負載。與上一代 Immortalis-G925 相比,其性(xing)能提升高達 104%。
通過擴(kuo)大(da)的(de) L2 緩(huan)存和優(you)化的(de)互連設計,Mali G1-Ultra 專為并行(xing)處理 AI 與圖形工作負載(zai)而(er)打造,大(da)幅減少內存瓶頸,并確保實時(shi)體(ti)驗的(de)靈敏響應與流暢運行(xing)。無論(lun)是(shi)增強照片質量,還(huan)是(shi)支持更智(zhi)能的(de)應用交互,Mali G1-Ultra 都在邊緣(yuan)側(ce)實現響應靈敏的(de)實時(shi)智(zhi)能。
可擴展性(xing)能的(de)新架構特(te)性(xing)
上述的(de)(de)每一項性(xing)能與(yu)能效(xiao)的(de)(de)提升,都(dou)根源(yuan)于全新 Mali G1 GPU 系列的(de)(de)最新架(jia)構演進。Mali G1-Ultra 為 Arm 第(di)五代 GPU 架(jia)構引入多項核心級(ji)改(gai)進,旨(zhi)在應(ying)對(dui)日益復(fu)雜的(de)(de)內容(rong),同時避免超(chao)出功耗預算。
主要更新包括:
- 雙堆疊著色器核心,可使內部帶寬加倍并減少擁塞;
- 增加快速訪問統一寄存器,以在著色器執行期間大幅減少內存提取。
這些更新共同提升了包括實時(shi)光照和基于物理的渲染在內的響應效(xiao)(xiao)果(這些特效(xiao)(xiao)通常屬于計算密集(ji)型工(gong)作負載)。
此外,Mali G1-Ultra 還引入 Arm 圖像區域(yu)依賴 (Image Region Dependencies, IRD),這(zhe)是一種更智能的調度(du)特(te)性,使 GPU 能同(tong)時處(chu)理屏幕的不同(tong)部分,從而在復(fu)雜場景(jing)中提升性能并減少空閑時間。
為開發者量身打造
為幫助開發者(zhe)實現更(geng)精細的性能(neng)(neng)優化,Mali G1 GPU 通過基(ji)于塊 (tile) 的硬件(jian)計數(shu)器,提供(gong)更(geng)強(qiang)的可觀測性。這些計數(shu)器能(neng)(neng)逐幀按(an)區域洞(dong)察 GPU 活動,讓開發者(zhe)可以更(geng)高效地識別熱點,并平衡工作(zuo)負(fu)載。
這(zhe)(zhe)些(xie)計數器可通(tong)過 Vulkan 擴展訪問,并將在(zai)未來的(de)安卓版(ban)本中支(zhi)持(chi) RenderDoc。這(zhe)(zhe)讓游戲引擎(qing)公(gong)司、游戲工作室和設備 OEM 廠商能夠(gou)更為輕松地(di)從該架構中獲(huo)得最大性(xing)能,同時保持(chi)視覺質量和電池效率。
全新 Mali G1 GPU 支(zhi)持 Arm 精銳超級分辨率技(ji)術(shu) (Arm Accuracy Super Resolution, Arm ASR),這項(xiang)時(shi)域類超分技(ji)術(shu)可在(zai)減少 GPU 工作(zuo)負(fu)載的同時(shi),提升圖像質量。該技(ji)術(shu)通過虛(xu)幻引擎 5 (Unreal Engine 5) 提供,并已集成至《堡壘之(zhi)夜》手游(you)。Arm ASR 能幫助開發者在(zai)不犧牲(sheng)視覺(jue)保真(zhen)度的情況下,保持高(gao)幀率,從而(er)在(zai)各種移動設備上實現更流暢的游(you)戲體驗(yan)與(yu)更清晰的細節效果。
釋放先進(jin)游戲與 AI 體(ti)驗
Mali G1-Ultra 重新定(ding)義了移動(dong) GPU 的(de)性能(neng)。得益于在光(guang)線(xian)追(zhui)蹤、AI 加(jia)速和架構效率上的(de)突破性進展,Mali G1-Ultra 為新一(yi)代智(zhi)能(neng)手機體驗奠定(ding)基礎,消費者能(neng)享受(shou)到更持久的(de)沉浸式逼真游戲體驗,并通過先進的(de)內建智(zhi)能(neng)獲得更迅捷的(de)交互響應。
隨(sui)著手(shou)游的視覺保真度進一步獲得提升,AI 也成為日(ri)常(chang)體驗的標準組成,Mali G1-Ultra 為 Arm 生態系統提供(gong)所需(xu)的性(xing)能(neng)、余量(liang)和工具,使他們(men)能(neng)夠在各種移動設(she)備上實現豐(feng)富、響應靈敏且高(gao)能(neng)效的表現。