效果炸裂！「百度蒸汽机」圆你大片导演梦！- DoNews

撰文 | 李信馬

題圖 |?2025熱AI大會

影史票房成績第一的《阿凡達》，制作成本高達2.8億美元，其中，用在特效上的差不多占了一半，有48家特效公司為之效力，每一幀（1/24秒）CGI，需要47人做一個小時才能完成。導演詹姆斯·卡梅隆后來評價道：“《阿凡達》是有史以來最復雜的一次電影制作。”

感謝AI時代，今天，不需要48家特效公司，最新的視頻模型，就能夠幫每一位愛好者圓自己的導演夢了。

今年的7月2日，在百度AI DAY開放日上，百度推出了視頻生成模型MuseSteamer（百度蒸汽機）。8月21日，百度正式發布和升級了百度蒸汽機2.0，Turbo版、Lite版、Pro版及有聲版本，并宣布全系開放。

直接看效果，下面是《阿凡達》中經典的一幕，男主深情注視著女主：

圖片來源：《阿凡達》

然后DoNews用百度蒸汽機做出了一個10秒版本的鏡頭：地道的中國話，還有這令人親切的腔調和臺詞，搭配上畫面卻又毫不違和，怎么看都像是正版。那些在特效上花了巨資的導演，看到這一幕不知道心態如何，但筆者是真的爽了！

自Sora發布以來，視頻生成一直受到廣泛的關注，但是很多生成的模型頗為抽象和詭異，距離“好看”和“商用”都還有一定的距離。「百度蒸汽機2.0」的定位是全球首個中文音視頻一體化模型，但具體有什么優點，又該怎么用呢？當天，DoNews也受邀參加了發布會和采訪，讓我們一一道來。

01、視頻創作的效率革命

開局一張圖，中間一段腳本，幾分鐘后就是一段完成度極高的視頻？

放在幾年前，這樣的效率，絕大多數內容創作者是想都不敢想的。視頻開場，就呈現兩段酷炫的運鏡，這是百度蒸汽機的最新能力。據了解，研發團隊通過海量專業運鏡數據進行了模型微調，我們普通人拍短視頻，會簡單的推拉移就算不錯了，而蒸汽機已經熟練駕馭了環繞、搖鏡等幾十種復雜運鏡方式，新增的鏡頭語言，也給視頻表達提供了更豐富的選擇空間。

蒸汽機的指令遵循系統也進行了全方位升級，通過精準的視頻主體刻畫，使視覺呈現細節與指令文本實現精確對應。在畫面流暢度和人物表現細膩度方面，模型也有了質的飛躍。剛剛的視頻，就是對經典童話進行了解構，視頻中人物的表演更加生動自然，梵高畫作的流動背景也令人沉醉。

還有一個不容易注意到，但實際上很重要的事情——視頻里的聲音，包括水聲、鐘聲等環境音效以及人物臺詞，都是自動生成的，而非遵循以往“生成無聲視頻——配音效——配臺詞——對口型”的流程。「百度蒸汽機2.0」不僅實現了音視頻一體化生成，更突破性地解決了多人對話、語言與人物面部/唇形/情緒一致性的技術難題。

百度商業體系商業研發總經理劉林在演講中表示，技術突破為「百度蒸汽機2.0」帶來了四大創新點：

1、人物表演、情緒、聲音與神態的高度統一；

2、動態畫面與音效的精準時空對齊；

3、多模態潛在空間規劃技術對故事連貫性的保障；

4、超擬真音色與場景氛圍、情緒的自然融合。

這是吹出來的，還是真實效果就是如此？昨天，百度蒸汽機2.0全系模型，包含Turbo、Lite、Pro及有聲版四個版本，均已正式發布并向用戶全面開放.

感興趣的讀者，在百度搜索、百度APP、手機瀏覽器百度搜索上搜「百度蒸汽機」或應用平臺「繪想」，就可以上手試試了。有了AI打破傳統硬件要求的限制，每個人都可以拍屬于自己的“大片”。

而對百度蒸汽機的技術和故事更感興趣的朋友，我們接著往下看。

02、“雙人有聲” 難在哪？

視頻生成異軍突起，面對影視行業的痛點問題，如危險鏡頭難拍攝、理想場景難尋找，影視制作周期長，參與協同角色多、演員拍攝成本高、視覺特效投入大等問題，都可以完美解決。

當天的嘉賓之一——知名好萊塢視效指導姚騏，參與了《2012》《黑客帝國3》《火星救援》《星際迷航》等電影的創作，他就直言，AI已深度滲透影視產業全流程：

在劇本創作階段，AI可以輔助構建基礎架構、設計故事線及生成對話內容；美術設計領域，AI已經全面覆蓋概念設計與故事板制作；拍攝環節中，從攝影機控制、運動捕捉到燈光設置，AI均能提供技術輔助；后期制作流程中，AI在摳像、跟蹤、模型構建、動畫制作及特效合成等環節被廣泛應用。

有了AI，好處多多。高危鏡頭可以交給AI完成，奇幻場景可以由AI構建，制作周期被縮短，演員片酬、特效鏡頭的價格都大大降低了。可以說，電影業因AI進入了新的工業化階段。

這次蒸汽機的核心技術突破，就是做到多人音畫同步，這一點連姚騏都表示了驚喜：“可以看到，蒸汽機在角色不同的?度下，口型自然，還確保音色和環境音的契合，細致的音效和環境音表現都很好。”

百度商業研發首席架構師李雙龍在采訪中表示，谷歌在6月份推出的Veo3，是首個音視頻大模型，但是它并不能支持中文，而百度蒸汽機是首個支持中文的音視頻生成大模型，整個研發過程中，百度也面臨著很多技術上的挑戰。

據了解，多人對話有聲視頻生成面臨的核心技術難點，在于多模態信息的精準同步與自然交互。唇形同步要求極高精度，需確保每位說話者的口型與語音波形在毫秒級對齊，并在側臉、遮擋等復雜場景表現穩定。其次，角色區分與交互自然性，系統必須準確識別不同說話者的聲紋特征，同步生成對應的面部表情、肢體語言及視線方向，避免出現角色錯位或機械化的集體反應。另外在情感一致性上也難以把控，需協調語音的情感語調（如憤怒、驚訝）與角色的微表情、肢體動態保持統一。此外，算法需在合成環境音效的同時，確保多人語音清晰分離且符合虛擬場景的聲學邏輯。

“首先，我們要做到多角色的形聲容一體化生成能力，也就是讓模型通過自主理解思考規劃實現多角色的語音、動作、表情等元素的完美匹配，其次就是如何通過端到端的訓練學習達成這樣的一體化生成效果，而不是把整個生成過程拆成很多步進行訓練。能做到這些是非常有挑戰的事情。”李雙龍說。

當下業界主流一般是通過多角色多條件輸入控制的方式來實現，就是人工預先編排好讓哪一個角色先說，哪一個角色后說，具體說什么、用什么音色等，成本高且效果不好，而蒸汽機首創了lmmp技術實現了自動化的多角色隱式理解規劃編排學習，無需人工多角色編排且效果顯著領先業界主流技術。同時，蒸汽機處理和學習了大量跟中文語音語境相關的優質數據，讓模型能夠充分去理解中文特有的發音、語境特色等，實現了更好的中文化適配和生成。“這一次，我們開發了首個專門面向中文語境、中文語音的音視生成大模型，也是為我們中國的視頻創作者，提供上支持中文的音視生成大模型。”

03、想象力：從創作到商業

想象力是創作的一切，可能這也是百度蒸汽機的以“想象力”作為消費單位的原因之一。但技術也好，創作也好，想要長期可持續的發展，都要考慮商業化的落地，可喜的是，在這方面，視頻生成也頗具想象力。

當天發布會的一個高潮，就是公布價格。百度蒸汽機的價格體系極具競爭力，針對不同需求用戶提供了梯度會員服務，價格低至行業同類產品的70%，新用戶注冊即可免費獲得部分想象力值。

比如，Turbo版模型720P的價格定在1.4元/5秒，10秒價格為2.8元。值得一提的是，Turbo有聲版價格與無聲版完全一致，而行業傳統流程中生成5秒720P視頻需經歷配音效、配臺詞等步驟，綜合成本達3.5元，形成了極具競爭力的價格優勢。

姚騏就帶來了一部用百度蒸汽機制作的作品《歸途》，40個鏡頭用到了120個視頻片段，其中有18個10秒的一體化有聲片段和102個5秒有聲片段。按照定價標準來算，大約330.6元錢，可以說達到了極致的成本控制。

這個是單純的價格戰嗎？對此百度副總裁、移動生態商業體系負責人陳一凡表示：“我們在收集大家的需求過程中，發現除了質量，更重要的就是成本。成本不降下來，大家不肯用，不肯用就根本到不了質量。所以我們在訓練的時候，就兼顧了成本。”

百度的團隊很早就基于GPU進行計算，在各方面有了深厚的積累，因此成功地將成本降了下來，降低了應用的門檻。當天，還展示了多條用百度蒸汽機制作的廣告，來自一汽大眾、伊利等公司。除了大公司，對很多中小公司來說，這也是極大的利好。

“為什么我們要做這一件事？其實有好多的小說廣告主，想用視頻來投廣告，發現像‘僵尸入境’之類的視頻，很難自己做出來，用AI來做視頻物料，投放就非常好。還有廣泛的中小企業，用蒸汽機來幫他們基于現在的物料做生成，能很快做出想要的視頻來，這樣也有利于廣大的中小廣告主在百度的場域來做分發。百度的廣告收入很大一部分是中小客戶帶來的，所以幫助他們在這個時代獲取更多的流量和需要的用戶，也是我們做這個的價值。“陳一凡說到。

據了解，作為百度內容生產的重要工具，百度蒸汽機直接服務于搜索、信息流等核心業務，畢竟，如果能帶來搜索收入1%的增長，也意味著數十億級別的收入。

而在技術發展的方向上，百度商業研發首席架構師李雙龍表示：“其實Sora剛出來的時候，雖然有很大的技術突破性，但是效果上跟我們想象的世界模型差距還是挺大的。未來我們會在世界模型這個方向上面持續探索，做出更大的技術突破。”

久久精品欧美日韩精品/狠狠色婷婷久久一区二区三区/国产精品午夜无码av体验区/丰满人妻av无码一区二区三区/成人做爰A片免费看网站爱酱