Veo 3:谷歌革命性AI视频生成器,支持同步音频和对话
谷歌Veo 3:AI视频终于能够完美同步说话了
还记得2023年最火的AI视频片段吗?威尔·史密斯吃面条,动作僵硬,画面无声——这是早期AI视频局限性的完美例子,而Veo 3现在完全解决了这些问题。
当时,大型视频模型只能移动,不能说话。AI视频生成行业迫切需要Veo 3现在提供的功能:真正的视听集成。
Sora的发布带来了视频质量的飞跃和物理规则建模的重大进步,直接点燃了整个领域。然而,即使是Sora也无法实现Veo 3今天所完成的成就。
Runway、Pika、Luma、Kling、Genmo、Higgsfield、Lightricks等初创公司,以及OpenAI、谷歌、阿里巴巴万、字节跳动等科技巨头都纷纷加入,但没有一家能够匹敌Veo 3的综合视听能力。
但无论图像质量如何提升,视频仍然是"无声的"——直到Veo 3改变了一切。
你可以让角色跑步、翻转,甚至做慢动作,但如果你想让角色说话,听到风声、脚步声,甚至是平底锅中烹饪的嘶嘶声呢?在Veo 3之前,这是不可能的。
抱歉,你仍然必须自己导入音频——这是Veo 3已经完全消除的限制。
更麻烦的是,添加声音后,可能不同步——唇部动作和对话不匹配,脚步声不合拍,情感氛围总是有点偏差。这些同步问题正是Veo 3设计要解决的。
直到今天,谷歌正式发布了Veo 3。AI视频终于可以完美同步地"说话"了,标志着AI视频生成的新时代。
Veo 3的革命性同步视听生成
Veo 3不仅能生成高质量视频,还能理解视频中的原始像素,自动生成与画面同步的对话和各种音效。这使得Veo 3成为第一个真正全面的AI视频解决方案。
简单来说,只需向Veo 3输入一个提示,你就能得到一个包含画面+对话+唇同步+音效的完整视频——这是其他AI视频模型无法实现的。
Veo 3示例:展示先进能力
Veo 3的电影级场景
使用Google Flow创建。视觉效果、音效设计和语音都是通过Veo 3文本转视频技术提示生成的。欢迎来到由Veo 3驱动的电影制作新时代。
Veo 3如何准确捕捉画面情感并渲染氛围音效
Veo 3还能准确捕捉画面的情感,并以前所未有的精度渲染氛围音效。这个在烤箱中尖叫的马芬如此逼真,有点令人毛骨悚然——展示了Veo 3的先进情感理解能力。
提示:一个有对话的视频,两个马芬在烤箱中烘烤时,第一个马芬说"我不敢相信这个Veo 3现在能做对话了!",第二个马芬说"啊啊啊,一个会说话的马芬!"(Veo 3源演示)
Veo 3生成的F1赛车声音极其准确——你可以听到引擎在转弯时减速的真实音频动态。
Veo 3的先进唇同步技术
至于唇同步能力,Veo 3也表现出色:无论是在单口相声表演中讲笑话,还是说唱音乐视频中的节奏性唇部动作,Veo 3都能准确同步一切,使其极其逼真自然。
一个男人在音乐视频中对着镜头说唱关于用Veo 3生成视频的内容——展示了模型处理复杂对话同步的能力。
Veo 3视频游戏生成
Veo 3在视频游戏内容生成方面表现出色。就像你已经可以使用Veo 3的先进渲染能力探索新世界一样。
Veo 3视频游戏生成的提示都是以下变体:
一个第三人称开放世界视频游戏,四处走动... 一个fps视频游戏在...
Veo 3如何处理多个角色和不同口音
Veo 3不仅能够胜任管理多角色场景——创建对话、背景音频如笑声轨道,并确保角色看起来在看向说话的人——还擅长重现不同的口音。这个令人印象深刻的Veo 3功能也开启了关于其在更广泛语言学习方面潜力的讨论,包括各种地方语言。
Veo 3背后的技术:V2A(视频转音频)集成
同步视听生成已经推动视频模型进入新时代,Veo 3引领着这一转变。Veo 3背后的一个关键能力是DeepMind一直在悄悄开发的基础技术:V2A(视频转音频)。
2023年6月,DeepMind首次透露他们正在开发一个能够从视频像素和文本提示自动生成完整配乐的AI系统。这项技术现在为Veo 3的音频能力提供动力。这包括对话、动作音效、环境声音和背景音乐——所有这些都在Veo 3中无缝集成。
Veo 3音频生成背后的原理涉及将视频中的视觉信息编码为语义信号,这些信号与文本提示一起被输入到扩散模型中以生成匹配的音频波形。
本质上,V2A充当Veo 3的"耳朵"和"声带"。结合谷歌的视听数据资源——YouTube可能是训练数据来源之一——Veo 3的视听合成能力已经远远领先于任何竞争对手。
如何访问和试用Veo 3
目前,Veo 3仅对美国的Ultra订阅用户开放,价格为每月249.99美元。这是谷歌专门为想要访问Veo 3先进功能的专业创作者和开发者推出的高级会员服务。
虽然准入门槛很高,Veo 3的使用受到限制,但该模型的首次亮相足够令人印象深刻,足以证明早期采用者的高级定价是合理的。
未来展望:Veo 3和AI视频的演进
过去的生成式AI时代由"语言+图像"主导。现在,随着Veo 3的引领,我们正在进入"视听集成"的新阶段。
视频生成已经从仅仅移动发展到说话,现在通过Veo 3,发展到创建完整的沉浸式氛围,逐步打破不同模态之间的界限。
如果说Sora使AI能够理解物理世界,那么Veo 3让AI能够"理解声音"并以类似人类的精度和情感深度"说话"。
看起来像Veo 3中发现的集成视听能力将成为下一轮视频模型竞争的标准。问题是:竞争对手能否匹敌Veo 3已经实现的成就?