撰文 | 程書書
編輯 | 李信馬
題圖 | 豆包AI
國慶假期,全球AI圈被一枚“重磅炸彈”炸醒。
OpenAI發布新一代AI視頻模型 Sora 2 及其配套應用 Sora App,即使需要填寫邀請碼才能使用,也沒有減弱網友的熱情,社交平臺上充滿了尋求邀請碼的信息。短短四天內,這款App便空降美區App Store免費榜榜首,力壓ChatGPT、Google Gemini等一眾頭部AI產品,迅速成為海外創作者、內容營銷人和TikTok賣家的新寵。
社交平臺瞬間被AI生成的“同人宇宙”刷屏:動漫角色穿越現實街道,游戲角色在都市中穿行,甚至連OpenAI CEO山姆·奧爾特曼(Sam Altman)也被網友“玩出花”——他出現在東北炕頭吃飯、在阿里會議室講“閉環”“賦能”,甚至化身外賣騎手穿梭于城市街頭。
奧爾特曼本人將Sora 2稱為“創意領域的ChatGPT 3.5時刻”。從官方演示到網上用戶實測,Sora 2在物理邏輯、畫面連貫性、真實感和音畫同步等方面實現了質的飛躍,被多家媒體譽為“將AI視頻生成推向新高度”。
DoNews在進行了體驗后認為:Sora 2確實強大,但距離“現實不存在了”的預言,還是有一定距離。
01、創造力炸裂,細節仍存“AI感”
Sora App以Sora 2為技術基礎,Sora 2直接內置了對話、音效和背景音樂的自動生成能力,可以實現音頻和視頻同步生成,改變了以往AI視頻生成工具沒有聲音的狀況。
進入 Sora App 后,主頁底部設有功能欄,從左到右依次為「視頻推薦」「靈感廣場」「生成器」「消息」「個人主頁」。很多人將其稱為 “AI版抖音”,正是因為界面及首頁推薦邏輯與之相似 ——App 主頁為垂直視頻流,用戶可上下滑動瀏覽其他用戶發布的內容。
其中,靈感廣場用于展示熱門作品。由于 Sora App 生成視頻后,提示詞會默認成為視頻配文,因此熱門視頻的提示詞可直接復制修改后使用。
生成器是用戶制作視頻的核心功能區,有兩點值得注意:一是不支持上傳用戶自制視頻素材,僅能通過 AI 生成視頻;二是不支持單獨撰寫短視頻文案——用戶輸入的文案會默認作為生成視頻的提示詞。?
生成視頻時,有兩種特色方式可選:一是圖片生成視頻,二是 Cameo 出鏡秀。Cameo 是每個賬號對應的虛擬數字形象,相當于用戶的 “專屬 Sora 身份標識”。創建 Cameo 需錄制一段個人臉部視頻,操作步驟類似支付寶、銀行類 App 的視頻認證,驗證通過后即可用自己的虛擬形象生成并發布視頻。?
此外,也可使用他人的虛擬數字形象,通過文生視頻或圖生視頻功能創作,但前提是對方將形象設為公開。具體操作是:撰寫提示詞時點擊他人頭像,其ID會自動填入提示詞;因此,使用他人形象發布視頻時,系統會自動@該用戶——這也意味著,形象設為公開即默認允許 App 內其他用戶使用。
DoNews以奧爾特曼的虛擬數字形象和一張圖片生成了一段視頻,提示詞為:“@sama在圖片場景里說集美們,耶斯莫拉。”
在生成的視頻中,Sora結合圖片背景為奧爾特曼豐富了臺詞,奧爾特曼指向后面的店鋪說:“集美們,今天帶大家來看看老姐妹的店,耶斯莫拉。”臺詞的補充顯示出AI聯想的能力,與場景的配合較為自然,發音時,人物的口型也基本能對上。
不過,并非每次生成都能一次成功。DoNews再次嘗試生成奧爾特曼剝獼猴桃的視頻時,剝獼猴桃的細節就出現了錯誤,有明顯的AI痕跡。
DoNews又以奧爾特曼和另一用戶的數字形象創建了一段多角色視頻,提示詞是:“@sama@thomasdimson扮演《后宮甄嬛傳》里面的華妃娘娘和皇后娘娘,穿著清朝的妃嬪服制,用中文吵架。” 系統檢測到版權問題無法生成,刪除提示詞中的《后宮甄嬛傳》后,生成就不再被拒絕。
在這段雙人互動視頻中,提示詞只提到“用中文吵架”,而 Sora 再次為角色添加了臺詞,二人的吵架內容也符合清宮戲的背景。但細節仍有瑕疵,比如中間有一句臺詞的聲音沒有對口型,后面皇后的臺詞錯誤地對應到了華妃的嘴型。
這種臺詞錯位的情況在多角色視頻中發生的概率似乎較高,在DoNews之后生成的另一段多人對話視頻中也出現了類似問題。
整體來看,Sora 2在物理世界理解方面確實表現不俗,用戶數字人的物理效果和唇型同步效果良好,基本的一致性做得不錯。但涉及到多元素的物體交互時,仍會出現多角色臺詞錯位、物體交互 bug的問題,保留了明顯的“AI感”。
“AI配音” 本身也存在缺陷:語氣生硬、情感適配度低,若提示詞未明確語調,生成的對話會顯得機械。同時,“構思提示詞” 的門檻依然存在——普通用戶可能因描述不細致(比如沒說清場景氛圍、人物動作),導致生成的視頻偏離預期,而專業創作者則需花費時間優化提示詞,才能彌補 AI 的細節不足。?
02、創意 ChatGPT 時刻未到,娛樂版抖音還差口氣
OpenAI 在官方聲明中,將 Sora 2 定位為 “最先進的視頻和音頻生成模型”,更明確對比:2024 年 2 月發布的初代 Sora 是視頻領域的 “GPT-1 時刻”,而 Sora 2 直接邁入了 “GPT-3.5 時刻”。
從音畫同步、人物ID一致性(如 Cameo 形象復用)到多鏡頭敘事的技術突破來看,Sora 2 確實刷新了AI視頻生成的上限,但距離 “重塑創意領域” 和 “成為新一代娛樂社交平臺”,它顯然還差點火候。?
“Sora 2 生成的音頻真實感、清晰度,把之前的AI音效工具甩開好幾條街,甚至比谷歌Veo 3還略勝一籌。” 小旭音樂創始人兼 CEO、AIGC 藝術家小旭的評價,點出了 Sora 2 的核心優勢 —— 易用性。它把復雜的視頻生成流程簡化成 “輸入提示詞+選形象”,尤其是 Cameo 功能,用戶錄幾秒臉部視頻就能克隆專屬虛擬形象和聲音,門檻低到普通用戶也能上手。
但優勢之外,硬傷同樣明顯。“目前生成的視頻時長比較短,只有10秒鐘,這個在正規的創作中還是顯得略短了一些。”此外,分辨率也不太行,App 里沒法調畫質,默認只有 480P 或 360P,橫版還得用 PC 端才能生成。在小旭看來,Sora2是瞄準AI社交去的,并不是一個純粹的AI工具。
Sora App目前采用的邀請制也可以驗證他的看法,當一個邀請碼注冊成功后,可以再生出4個邀請碼,分享給其他用戶后,這些用戶激活賬號又能獲得4個新的邀請碼,如此形成裂變循環。而且一旦使用他人的邀請碼,系統會自動關注邀請方,逐步構建起好友社交網絡。
用戶車車體驗后認為,其娛樂性 “遠不如抖音”:“Sora 上的內容更像‘自娛自樂’—— 每個人生成的視頻都是圍繞自己的虛擬形象或簡單場景,沒有抖音那樣的話題挑戰、達人生態,也缺乏能引發大眾共鳴的內容,刷幾條就會覺得單調。”?
這種 “娛樂性短板”,和 Sora 2 嚴格的限制掛鉤。為規避版權、肖像權風險,它會直接拒絕生成多數真實名人、影視角色(比如前文提及《后宮甄嬛傳》觸發版權攔截),甚至普通人物形象的創作也有諸多約束。用戶能發揮的題材空間被壓縮,自然難以產出多樣化、有傳播力的內容——反觀抖音,從生活記錄到創意短劇,內容邊界寬泛,再加上評論互動、合拍、話題榜等功能,社交粘性遠非 Sora 2 可比。?
綜上,Sora 2無疑是一次技術飛躍,它顯著降低了AI視頻創作的門檻,將此前分散的視頻、音頻生成步驟整合,讓普通用戶也能輕松體驗創作的樂趣。
然而,無論是從其有限的畫質與時長、純AI生成內容導致的同質化傾向,還是技術上尚未克服的細節瑕疵來看,它距離成為引發創意領域革命的“ChatGPT時刻”以及媲美抖音的娛樂平臺,仍差一口氣。
對于普通用戶,Sora 2是一款有趣、易上手的新玩具;但對于追求高質量、長序列和強一致性的專業創作者而言,它仍不是一個成熟可靠的生產力工具。OpenAI的這枚“炸場”新星,優點與缺點同樣突出,它的真正成熟,或許還需要等待下一個版本的迭代。