撰文 | 李信馬
題圖 |?2025熱AI大會
影史票房成績第一的《阿凡達》,制作成本高達2.8億美元,其中,用在特效上的差不多占了一半,有48家特效公司為之效力,每一幀(1/24秒)CGI,需要47人做一個小時才能完成。導演詹姆斯·卡梅隆后來評價道:“《阿凡達》是有史以來最復雜的一次電影制作。”
感謝AI時代,今天,不需要48家特效公司,最新的視頻模型,就能夠幫每一位愛好者圓自己的導演夢了。
今年的7月2日,在百度AI DAY開放日上,百度推出了視頻生成模型MuseSteamer(百度蒸汽機)。8月21日,百度正式發布和升級了百度蒸汽機2.0,Turbo版、Lite版、Pro版及有聲版本,并宣布全系開放。
直接看效果,下面是《阿凡達》中經典的一幕,男主深情注視著女主:
圖片來源:《阿凡達》
然后DoNews用百度蒸汽機做出了一個10秒版本的鏡頭:地道的中國話,還有這令人親切的腔調和臺詞,搭配上畫面卻又毫不違和,怎么看都像是正版。那些在特效上花了巨資的導演,看到這一幕不知道心態如何,但筆者是真的爽了!
自Sora發布以來,視頻生成一直受到廣泛的關注,但是很多生成的模型頗為抽象和詭異,距離“好看”和“商用”都還有一定的距離。「百度蒸汽機2.0」的定位是全球首個中文音視頻一體化模型,但具體有什么優點,又該怎么用呢?當天,DoNews也受邀參加了發布會和采訪,讓我們一一道來。
01、視頻創作的效率革命
開局一張圖,中間一段腳本,幾分鐘后就是一段完成度極高的視頻?
放在幾年前,這樣的效率,絕大多數內容創作者是想都不敢想的。 視頻開場,就呈現兩段酷炫的運鏡,這是百度蒸汽機的最新能力。據了解,研發團隊通過海量專業運鏡數據進行了模型微調,我們普通人拍短視頻,會簡單的推拉移就算不錯了,而蒸汽機已經熟練駕馭了環繞、搖鏡等幾十種復雜運鏡方式,新增的鏡頭語言,也給視頻表達提供了更豐富的選擇空間。
蒸汽機的指令遵循系統也進行了全方位升級,通過精準的視頻主體刻畫,使視覺呈現細節與指令文本實現精確對應。在畫面流暢度和人物表現細膩度方面,模型也有了質的飛躍。剛剛的視頻,就是對經典童話進行了解構,視頻中人物的表演更加生動自然,梵高畫作的流動背景也令人沉醉。
還有一個不容易注意到,但實際上很重要的事情——視頻里的聲音,包括水聲、鐘聲等環境音效以及人物臺詞,都是自動生成的,而非遵循以往“生成無聲視頻——配音效——配臺詞——對口型”的流程。「百度蒸汽機2.0」不僅實現了音視頻一體化生成,更突破性地解決了多人對話、語言與人物面部/唇形/情緒一致性的技術難題。
百度商業體系商業研發總經理劉林在演講中表示,技術突破為「百度蒸汽機2.0」帶來了四大創新點:
1、人物表演、情緒、聲音與神態的高度統一;
2、動態畫面與音效的精準時空對齊;
3、多模態潛在空間規劃技術對故事連貫性的保障;
4、超擬真音色與場景氛圍、情緒的自然融合。
這是吹出來的,還是真實效果就是如此?昨天,百度蒸汽機2.0全系模型,包含Turbo、Lite、Pro及有聲版四個版本,均已正式發布并向用戶全面開放.
感興趣的讀者,在百度搜索、百度APP、手機瀏覽器百度搜索上搜「百度蒸汽機」或應用平臺「繪想」,就可以上手試試了。有了AI打破傳統硬件要求的限制,每個人都可以拍屬于自己的“大片”。
而對百度蒸汽機的技術和故事更感興趣的朋友,我們接著往下看。
02、“雙人有聲” 難在哪?
視頻生成異軍突起,面對影視行業的痛點問題,如危險鏡頭難拍攝、理想場景難尋找,影視制作周期長,參與協同角色多、演員拍攝成本高、視覺特效投入大等問題,都可以完美解決。
當天的嘉賓之一——知名好萊塢視效指導姚騏,參與了《2012》《黑客帝國3》《火星救援》《星際迷航》等電影的創作,他就直言,AI已深度滲透影視產業全流程:
在劇本創作階段,AI可以輔助構建基礎架構、設計故事線及生成對話內容;美術設計領域,AI已經全面覆蓋概念設計與故事板制作;拍攝環節中,從攝影機控制、運動捕捉到燈光設置,AI均能提供技術輔助;后期制作流程中,AI在摳像、跟蹤、模型構建、動畫制作及特效合成等環節被廣泛應用。
有了AI,好處多多。高危鏡頭可以交給AI完成,奇幻場景可以由AI構建,制作周期被縮短,演員片酬、特效鏡頭的價格都大大降低了。可以說,電影業因AI進入了新的工業化階段。
這次蒸汽機的核心技術突破,就是做到多人音畫同步,這一點連姚騏都表示了驚喜:“可以看到,蒸汽機在角色不同的?度下,口型自然,還確保音色和環境音的契合,細致的音效和環境音表現都很好。”
百度商業研發首席架構師李雙龍在采訪中表示,谷歌在6月份推出的Veo3,是首個音視頻大模型,但是它并不能支持中文,而百度蒸汽機是首個支持中文的音視頻生成大模型,整個研發過程中,百度也面臨著很多技術上的挑戰。
據了解,多人對話有聲視頻生成面臨的核心技術難點,在于多模態信息的精準同步與自然交互。唇形同步要求極高精度,需確保每位說話者的口型與語音波形在毫秒級對齊,并在側臉、遮擋等復雜場景表現穩定。其次,角色區分與交互自然性,系統必須準確識別不同說話者的聲紋特征,同步生成對應的面部表情、肢體語言及視線方向,避免出現角色錯位或機械化的集體反應。另外在情感一致性上也難以把控,需協調語音的情感語調(如憤怒、驚訝)與角色的微表情、肢體動態保持統一。此外,算法需在合成環境音效的同時,確保多人語音清晰分離且符合虛擬場景的聲學邏輯。
“首先,我們要做到多角色的形聲容一體化生成能力,也就是讓模型通過自主理解思考規劃實現多角色的語音、動作、表情等元素的完美匹配,其次就是如何通過端到端的訓練學習達成這樣的一體化生成效果,而不是把整個生成過程拆成很多步進行訓練。能做到這些是非常有挑戰的事情。”李雙龍說。
當下業界主流一般是通過多角色多條件輸入控制的方式來實現,就是人工預先編排好讓哪一個角色先說,哪一個角色后說,具體說什么、用什么音色等,成本高且效果不好,而蒸汽機首創了lmmp技術實現了自動化的多角色隱式理解規劃編排學習,無需人工多角色編排且效果顯著領先業界主流技術。同時,蒸汽機處理和學習了大量跟中文語音語境相關的優質數據,讓模型能夠充分去理解中文特有的發音、語境特色等,實現了更好的中文化適配和生成。“這一次,我們開發了首個專門面向中文語境、中文語音的音視生成大模型,也是為我們中國的視頻創作者,提供上支持中文的音視生成大模型。”
03、想象力:從創作到商業
想象力是創作的一切,可能這也是百度蒸汽機的以“想象力”作為消費單位的原因之一。但技術也好,創作也好,想要長期可持續的發展,都要考慮商業化的落地,可喜的是,在這方面,視頻生成也頗具想象力。
當天發布會的一個高潮,就是公布價格。百度蒸汽機的價格體系極具競爭力,針對不同需求用戶提供了梯度會員服務,價格低至行業同類產品的70%,新用戶注冊即可免費獲得部分想象力值。
比如,Turbo版模型720P的價格定在1.4元/5秒,10秒價格為2.8元。值得一提的是,Turbo有聲版價格與無聲版完全一致,而行業傳統流程中生成5秒720P視頻需經歷配音效、配臺詞等步驟,綜合成本達3.5元,形成了極具競爭力的價格優勢。
姚騏就帶來了一部用百度蒸汽機制作的作品《歸途》,40個鏡頭用到了120個視頻片段,其中有18個10秒的一體化有聲片段和102個5秒有聲片段。按照定價標準來算,大約330.6元錢,可以說達到了極致的成本控制。
這個是單純的價格戰嗎?對此百度副總裁、移動生態商業體系負責人陳一凡表示:“我們在收集大家的需求過程中,發現除了質量,更重要的就是成本。成本不降下來,大家不肯用,不肯用就根本到不了質量。所以我們在訓練的時候,就兼顧了成本。”
百度的團隊很早就基于GPU進行計算,在各方面有了深厚的積累,因此成功地將成本降了下來,降低了應用的門檻。當天,還展示了多條用百度蒸汽機制作的廣告,來自一汽大眾、伊利等公司。除了大公司,對很多中小公司來說,這也是極大的利好。
“為什么我們要做這一件事?其實有好多的小說廣告主,想用視頻來投廣告,發現像‘僵尸入境’之類的視頻,很難自己做出來,用AI來做視頻物料,投放就非常好。還有廣泛的中小企業,用蒸汽機來幫他們基于現在的物料做生成,能很快做出想要的視頻來,這樣也有利于廣大的中小廣告主在百度的場域來做分發。百度的廣告收入很大一部分是中小客戶帶來的,所以幫助他們在這個時代獲取更多的流量和需要的用戶,也是我們做這個的價值。“陳一凡說到。
據了解,作為百度內容生產的重要工具,百度蒸汽機直接服務于搜索、信息流等核心業務,畢竟,如果能帶來搜索收入1%的增長,也意味著數十億級別的收入。
而在技術發展的方向上,百度商業研發首席架構師李雙龍表示:“其實Sora剛出來的時候,雖然有很大的技術突破性,但是效果上跟我們想象的世界模型差距還是挺大的。未來我們會在世界模型這個方向上面持續探索,做出更大的技術突破。”