Share - WeChat
北京时间12月17日
在OpenAI Sora正式发布8天后
谷歌旗舰AI研究实验室
Google DeepMind
发布了其视频生成模型
Veo的下一个版本Veo 2
新版本支持生成最高4K分辨率
和两分钟时长的视频
图源:谷歌 DeepMind
Veo 2亮点何在?
作为一款视频生成工具
谷歌在博客中表示
这款模型在真实感方面表现卓越
能够捕捉到人类表情和电影效果等细节
其增强的物理和电影学理解能力
使用户能够生成令人惊叹的内容
包括跟踪镜头和广角构图等
Veo 2有何突出亮点?
来看官方发出的几组视频
这感觉是不是“很到位”?
据谷歌介绍
Veo 2熟悉电影拍摄语言
用户可以要求某种类型的风格
指定镜头、建议电影效果
Veo 2都会以高达4K分辨率
并延长到数分钟的视频长度来呈现
值得注意的是
这一分辨率是OpenAI Sora模型的4倍
视频时长更是其6倍以上
但同样要明确的是
上述这些优势目前仍是理论上的
出于稳定性考虑
在谷歌的实验性视频创作工具VideoFX中
Veo 2生成的视频
被限制为720p分辨率、8秒的长度
与Sora相对比发现
后者最大输出为1080p、20秒的短片
Veo 2 与其他竞品的测试成绩对比
图源:谷歌DeepMind
仍未能完全跳出“恐怖谷”
Veo 2可以生成多种风格视频
并使得视频中的纹理和图像更加锐利
DeepMind公开表示
从技术层面来看
Veo 2有三大核心亮点
Veo 2生成的动物画面图源:
谷歌DeepMind
首先是物理引擎的优化
新模型对现实世界
物理规律的理解更为深入
这也大大提升了生成视频的真实感
其次是摄影技术的集成
带来了更丰富的相机控制选项
谷歌曾对媒体表示:
Veo 2不只是一个
简单的视频生成工具
它更像一个
精通摄影技巧的虚拟导演
最后是人物表现力的提升
在处理人物动作和面部表情方面
Veo 2展现出了更细腻的表现力
这得益于模型在训练过程中
对人体动作规律
和面部微表情的深入学习
VideoFX页面开放了候补名单
图源:谷歌DeepMind
谷歌表示
Veo 2极大降低了生成视频中产生“幻觉”
(即不必要细节如多余的手指或意外物体)的问题
增强了输出的真实性但仍未能完全跳出“恐怖谷效应”
(指随着机器人到达“接近人类”的程度人类好感度突然下降的现象)
DeepMind产品副总裁Eli Collins坦言
该模型在长时间保持人物动作连贯性
和复杂动作生成方面
还有待改进
Veo 2生成的切西红柿场景
图源:谷歌DeepMind
此外
在模型训练和风险提示方面
谷歌也有自己的考量
在模型训练方面
众所周知
训练生成式人工智能模型的数据
多是从互联网抓取的
其使用和传播
往往没有获得数据所有者的授权
Veo 2同样经过了大量视频数据的训练
但没有透露视频的具体来源
DeepMind认为
自己没有义务征得数据所有者的许可
在风险提示方面
Veo 2在每个输出视频中
嵌入了不可见的SynthID水印
帮助识别内容的AI生成属性
减少错误信息和错误归因的机会
参考:每日经济新闻、证券时报网、腾讯新闻、DeepTech深科技
2022年7月12日,世界互联网大会国际组织正式成立,从互联网领域的国际盛会发展为国际组织,总部设于中国北京。我们将致力于搭建全球互联网共商共建共享平台,推动国际社会顺应信息时代数字化、网络化、智能化趋势,共迎安全挑战,共谋发展福祉,携手构建网络空间命运共同体。