中文 / English

首页 > 新闻中心 > 行业新闻

Sora正式发布后，挑战者亮相

2024-12-17来源：世界互联网大会

Share - WeChat

北京时间12月17日

在OpenAI Sora正式发布8天后

谷歌旗舰AI研究实验室

Google DeepMind

发布了其视频生成模型

Veo的下一个版本Veo 2

新版本支持生成最高4K分辨率

和两分钟时长的视频

图源：谷歌 DeepMind

Veo 2亮点何在？

作为一款视频生成工具

谷歌在博客中表示

这款模型在真实感方面表现卓越

能够捕捉到人类表情和电影效果等细节

其增强的物理和电影学理解能力

使用户能够生成令人惊叹的内容

包括跟踪镜头和广角构图等

Veo 2有何突出亮点？

来看官方发出的几组视频

这感觉是不是“很到位”？

据谷歌介绍

Veo 2熟悉电影拍摄语言

用户可以要求某种类型的风格

指定镜头、建议电影效果

Veo 2都会以高达4K分辨率

并延长到数分钟的视频长度来呈现

值得注意的是

这一分辨率是OpenAI Sora模型的4倍

视频时长更是其6倍以上

但同样要明确的是

上述这些优势目前仍是理论上的

出于稳定性考虑

在谷歌的实验性视频创作工具VideoFX中

Veo 2生成的视频

被限制为720p分辨率、8秒的长度

与Sora相对比发现

后者最大输出为1080p、20秒的短片

Veo 2 与其他竞品的测试成绩对比

图源：谷歌DeepMind

仍未能完全跳出“恐怖谷”

Veo 2可以生成多种风格视频

并使得视频中的纹理和图像更加锐利

DeepMind公开表示

从技术层面来看

Veo 2有三大核心亮点

Veo 2生成的动物画面图源：

谷歌DeepMind

首先是物理引擎的优化

新模型对现实世界

物理规律的理解更为深入

这也大大提升了生成视频的真实感

其次是摄影技术的集成

带来了更丰富的相机控制选项

谷歌曾对媒体表示：

Veo 2不只是一个

简单的视频生成工具

它更像一个

精通摄影技巧的虚拟导演

最后是人物表现力的提升

在处理人物动作和面部表情方面

Veo 2展现出了更细腻的表现力

这得益于模型在训练过程中

对人体动作规律

和面部微表情的深入学习

VideoFX页面开放了候补名单

图源：谷歌DeepMind

谷歌表示

Veo 2极大降低了生成视频中产生“幻觉”

（即不必要细节如多余的手指或意外物体）的问题

增强了输出的真实性但仍未能完全跳出“恐怖谷效应”

（指随着机器人到达“接近人类”的程度人类好感度突然下降的现象）

DeepMind产品副总裁Eli Collins坦言

该模型在长时间保持人物动作连贯性

和复杂动作生成方面

还有待改进

Veo 2生成的切西红柿场景

图源：谷歌DeepMind

此外

在模型训练和风险提示方面

谷歌也有自己的考量

在模型训练方面

众所周知

训练生成式人工智能模型的数据

多是从互联网抓取的

其使用和传播

往往没有获得数据所有者的授权

Veo 2同样经过了大量视频数据的训练

但没有透露视频的具体来源

DeepMind认为

自己没有义务征得数据所有者的许可

在风险提示方面

Veo 2在每个输出视频中

嵌入了不可见的SynthID水印

帮助识别内容的AI生成属性

减少错误信息和错误归因的机会

参考：每日经济新闻、证券时报网、腾讯新闻、DeepTech深科技

2022年7月12日，世界互联网大会国际组织正式成立，从互联网领域的国际盛会发展为国际组织，总部设于中国北京。我们将致力于搭建全球互联网共商共建共享平台，推动国际社会顺应信息时代数字化、网络化、智能化趋势，共迎安全挑战，共谋发展福祉，携手构建网络空间命运共同体。