撰文 | 雁? 秋
編輯 | 李信馬
題圖 | 騰訊
前兩年,關于具身智能的聲音寥寥無幾,大模型還處在“百模大戰”的階段。而今年的世界人工智能大會(WAIC)上,各種「張牙舞爪」的機器人被觀眾圍得水泄不通,大模型也呈現出一條非常清晰的產業路徑:聚焦深度落地。
如果說過去談的是怎么訓練、怎么降本、怎么提速,那么,接下來誰能先把大模型真正裝進用戶的日常里,誰才是贏家。
作為連續八年參加WAIC的老牌大廠,騰訊發布了混元3D世界模型、具身智能開放平臺Tairos(鈦螺絲)等AI最新成果,并帶來了智能體開發平臺等產品的全新升級。
這是騰訊首次向外界展示以「1+3+N」架構建立的AI應用全景圖:
這套“1+3+N”全景體系,以騰訊自研混元大模型為核心引擎,構建了涵蓋平臺能力與多元應用的完整架構,覆蓋從面向B、C端的智能體開發平臺,到面向機器人領域的騰訊具身智能開放平臺,以及分布在多個行業場景中的豐富AI應用與智能體產品矩陣。
騰訊目的是打造“好用的AI”,讓AI真正“觸手可及”——不僅服務于B端企業的效率提升,更成為C端用戶的“數字好友”。
01、一句話、一張圖生成3D世界模型?
自2023年9月首次發布以來,目前騰訊混元大模型已經從語言模型迅速擴展到多模態、具身智能。
在WAIC2025,混元多模態AI模型矩陣集中亮相。另外,DoNews記者看到有各個年齡段的觀眾體驗騰訊元寶視頻聊天、選擇兩個關鍵詞就能創作三維模,數字飛行模擬艙的門前總是圍滿了小朋友。
騰訊發布并開源的混元3D世界模型1.0成為焦點,該模型加入了全景視覺生成與分層3D重建等技術,一句話或一張圖就能生成可360°漫游、交互、仿真的虛擬世界。
官方展示了幾個例子,比如,上傳一張畫著一棵樹、一艘船以及幾棟建筑的原始圖片,就能夠快速生成一個包含小樹、大海、藍天白云、城鎮等豐富要素的海濱小鎮。
DoNews記者嘗試體驗了一把,比如輸入「全息廣告牌映照著濕漉漉的街道,遠處巨大的數字鯨魚在游動」, 就會生成如下效果如。無論是作為主體的廣告牌、鯨魚,還是周圍的光線、環境等元素,構筑得都較為完整。
360°全景效果圖
若輸入「金紅色的楓葉飄落在鏡面般的湖水上,倒映著遠處的雪山」,一張包括雪山、湖水、楓葉元素的效果圖就出來了:
360°全景效果圖
按照騰訊官方的說法,混元3D世界模型能實現上述效果,核心在于其創新的「語意層次化3D場景表征及生成算法」。就算你是不會建模的普通用戶,也可用混元3D創作引擎快速生成360°沉浸式視覺空間,然后直接導入主流的VR虛擬頭顯設備內,能大幅縮短內容生產周期。
據介紹,目前,騰訊混元大模型已實現圖像、視頻、3D、文本等在內的全模態開源,圖像、視頻衍生模型數量分別達到1400個和1600個,混元3D系列模型社區下載量超過230萬,已成為全球最受歡迎的3D開源模型。
02、國內首個“模塊化”具身智能平臺
“你能不能把筆記本遞到我手里?”
“抱歉,我現在的雙手是假的,是一幅手套,無法幫您完成這個任務。”
?
“晚上我們能不能一起喝一杯,慶祝一下?”
“我晚上還要加班呢,不聊不聊!”
在2015WAIC騰訊論壇上,騰訊首席科學家、Robotics X實驗室主任張正友和宇樹機器人G1的對話引起現場觀眾陣陣歡笑。最直觀的感覺是,臺上這位機器人可以自然流暢地向人一樣地說話、交流,甚至還有自己的想法。
據了解,G1的回答是即興生成,并非預設程序。原因在于其搭載了騰訊Robotics X最新發布的具身智能平臺Tairos(鈦螺絲),有語音對話、環境感知和行動決策能力。
除了宇樹機器人之外,越疆科技、樂聚機器人、帕西尼感知科技等也成為首批接入Tairos的廠商。在本次WAIC,DoNews看到宇樹人形機器人G1可以給到場觀眾當“導游”;人居環境機器人“小五”不僅可以聽懂人類的語言,還能跟現場觀眾擁抱;越疆的機械臂X-Trainer通“動動嘴就讓機器人給你做好飯”。
據了解,騰訊從2024年年底開始規劃Tairos,團隊認真調研了行業,接觸過60多家機器人企業后發現,中國大量的機器人企業可以把硬件做得很好,但在軟件能力上還需要補齊。
市場需求讓騰訊看到了機會,這也是Tairos誕生的初衷。Tairos成為了國內首個以模塊化的方式提供大模型、開發工具和數據服務的具身智能軟件平臺。
所謂模塊化,即可以根據自身需求,選用感知模型模塊或規劃大模型。換句話理解,Tairos對于機器人就如同手機對于鴻蒙,開發者可以在這個平臺上自由組合創新。
騰訊對Tairos的定位是,為機器人本體開發商與應用開發商補齊關鍵的軟件能力。騰訊希望成為所有機器人廠商的合作伙伴,而不是取而代之做硬件。
03、智能體與大模型并非“非此即彼”
隨著基礎大模型“推理能力”的質變,今年年初起,Agent(智能體)從概念空降到產業。
相比依賴單一的模型,越來越多的企業更偏向構建擁有多種能力的智能體,一個模型不僅能夠生成文本,還能理解圖像,甚至生成圖像,或者處理音頻等。
到目前為止,打造一個Agent對于很多頭部科技公司已經不是問題,但要打造出一個既實用又能高效解決業務流中問題的智能體,依舊需要深入探討。
在平臺工具與生態建設上,騰訊選擇了覆蓋B端與C端的“雙平臺”智能體體系。
騰訊云副總裁、騰訊云智能負責人、騰訊優圖實驗室負責人吳運聲接受采訪時表示,B端需要企業級的保障,會更嚴謹,C端則更注重用戶生態搭建,“這兩套產品雖面向不同人群,但底層共享同一個平臺能力棧,實現了開發、運行、分發的一體化協同。”
面向B端企業,“騰訊云智能體開發平臺”支持零代碼構建與數據庫對接,實現多Agent協同執行。面向C端用戶,“騰訊元器”也做出了升級,可接入公眾號、微信生態與文檔資源,支持矩陣號分發。
鵝廠的企業級AI產品體系正在變得越來越完整,這些更新也意味著騰訊的產品能力被進一步補齊。
不過,智能體以極快的速度成為標配,大模型的風頭似乎要被取代。針對外界關注的“智能體是否會取代行業大模型”這一問題,吳運聲在接受采訪時明確表示,技術的演進并非“非此即彼”的替代關系,而是服務于產業需求的持續迭代與深化。
比起智能體數量的增長,騰訊更關注的是如何將大模型、智能體技術真正融入企業的業務流程,以滿足企業的真實業務需求。