Veo 3:Google革命性AI影片生成器,支援同步音訊和對話
Google Veo 3:AI影片終於能夠完美同步說話了
還記得2023年最火的AI影片片段嗎?威爾·史密斯吃麵條,動作僵硬,畫面無聲——這是早期AI影片局限性的完美例子,而Veo 3現在完全解決了這些問題。
當時,大型影片模型只能移動,不能說話。AI影片生成行業迫切需要Veo 3現在提供的功能:真正的視聽整合。
Sora的發布帶來了影片品質的飛躍和物理規則建模的重大進步,直接點燃了整個領域。然而,即使是Sora也無法實現Veo 3今天所完成的成就。
Runway、Pika、Luma、Kling、Genmo、Higgsfield、Lightricks等新創公司,以及OpenAI、Google、阿里巴巴萬、字節跳動等科技巨頭都紛紛加入,但沒有一家能夠匹敵Veo 3的綜合視聽能力。
但無論圖像品質如何提升,影片仍然是「無聲的」——直到Veo 3改變了一切。
你可以讓角色跑步、翻轉,甚至做慢動作,但如果你想讓角色說話,聽到風聲、腳步聲,甚至是平底鍋中烹飪的嘶嘶聲呢?在Veo 3之前,這是不可能的。
抱歉,你仍然必須自己匯入音訊——這是Veo 3已經完全消除的限制。
更麻煩的是,添加聲音後,可能不同步——唇部動作和對話不匹配,腳步聲不合拍,情感氛圍總是有點偏差。這些同步問題正是Veo 3設計要解決的。
直到今天,Google正式發布了Veo 3。AI影片終於可以完美同步地「說話」了,標誌著AI影片生成的新時代。
Veo 3的革命性同步視聽生成
Veo 3不僅能生成高品質影片,還能理解影片中的原始像素,自動生成與畫面同步的對話和各種音效。這使得Veo 3成為第一個真正全面的AI影片解決方案。
簡單來說,只需向Veo 3輸入一個提示,你就能得到一個包含畫面+對話+唇同步+音效的完整影片——這是其他AI影片模型無法實現的。
Veo 3示例:展示先進能力
Veo 3的電影級場景
使用Google Flow創建。視覺效果、音效設計和語音都是透過Veo 3文字轉影片技術提示生成的。歡迎來到由Veo 3驅動的電影製作新時代。
Veo 3如何準確捕捉畫面情感並渲染氛圍音效
Veo 3還能準確捕捉畫面的情感,並以前所未有的精度渲染氛圍音效。這個在烤箱中尖叫的瑪芬如此逼真,有點令人毛骨悚然——展示了Veo 3的先進情感理解能力。
提示:一個有對話的影片,兩個瑪芬在烤箱中烘烤時,第一個瑪芬說「我不敢相信這個Veo 3現在能做對話了!」,第二個瑪芬說「啊啊啊,一個會說話的瑪芬!」(Veo 3源演示)
Veo 3生成的F1賽車聲音極其準確——你可以聽到引擎在轉彎時減速的真實音訊動態。
Veo 3的先進唇同步技術
至於唇同步能力,Veo 3也表現出色:無論是在單口相聲表演中講笑話,還是說唱音樂影片中的節奏性唇部動作,Veo 3都能準確同步一切,使其極其逼真自然。
一個男人在音樂影片中對著鏡頭說唱關於用Veo 3生成影片的內容——展示了模型處理複雜對話同步的能力。
Veo 3影片遊戲生成
Veo 3在影片遊戲內容生成方面表現出色。就像你已經可以使用Veo 3的先進渲染能力探索新世界一樣。
Veo 3影片遊戲生成的提示都是以下變體:
一個第三人稱開放世界影片遊戲,四處走動... 一個fps影片遊戲在...
Veo 3如何處理多個角色和不同口音
Veo 3不僅能夠勝任管理多角色場景——創建對話、背景音訊如笑聲軌道,並確保角色看起來在看向說話的人——還擅長重現不同的口音。這個令人印象深刻的Veo 3功能也開啟了關於其在更廣泛語言學習方面潛力的討論,包括各種地方語言。
Veo 3背後的技術:V2A(影片轉音訊)整合
同步視聽生成已經推動影片模型進入新時代,Veo 3引領著這一轉變。Veo 3背後的一個關鍵能力是DeepMind一直在悄悄開發的基礎技術:V2A(影片轉音訊)。
2023年6月,DeepMind首次透露他們正在開發一個能夠從影片像素和文字提示自動生成完整配樂的AI系統。這項技術現在為Veo 3的音訊能力提供動力。這包括對話、動作音效、環境聲音和背景音樂——所有這些都在Veo 3中無縫整合。
Veo 3音訊生成背後的原理涉及將影片中的視覺資訊編碼為語義信號,這些信號與文字提示一起被輸入到擴散模型中以生成匹配的音訊波形。
本質上,V2A充當Veo 3的「耳朵」和「聲帶」。結合Google的視聽資料資源——YouTube可能是訓練資料來源之一——Veo 3的視聽合成能力已經遠遠領先於任何競爭對手。
如何存取和試用Veo 3
目前,Veo 3僅對美國的Ultra訂閱用戶開放,價格為每月249.99美元。這是Google專門為想要存取Veo 3先進功能的專業創作者和開發者推出的高級會員服務。
雖然準入門檻很高,Veo 3的使用受到限制,但該模型的首次亮相足夠令人印象深刻,足以證明早期採用者的高級定價是合理的。
未來展望:Veo 3和AI影片的演進
過去的生成式AI時代由「語言+圖像」主導。現在,隨著Veo 3的引領,我們正在進入「視聽整合」的新階段。
影片生成已經從僅僅移動發展到說話,現在透過Veo 3,發展到創建完整的沉浸式氛圍,逐步打破不同模態之間的界限。
如果說Sora使AI能夠理解物理世界,那麼Veo 3讓AI能夠「理解聲音」並以類似人類的精度和情感深度「說話」。
看起來像Veo 3中發現的整合視聽能力將成為下一輪影片模型競爭的標準。問題是:競爭對手能否匹敵Veo 3已經實現的成就?