Share - WeChat
当地时间8月26日
谷歌发布了其最新的
图像生成和编辑模型
Gemini 2.5 Flash Image
(代号“Nano Banana”纳米香蕉)
模型一经发布
便引发广泛关注
根据谷歌官方表述
Gemini 2.5 Flash Image
核心亮点是图像编辑能力
这一模型可以将多张图像
混合到一张图像中
保持高度的角色一致性
还能使用自然语言
进行有针对性的修改
并充分利用Gemini的“知识储备”
来生成和编辑图像
Gemini 2.5 Flash Image在文生图与图像编辑两个场景均位列榜首
图源:36氪
除了角色一致性
在渲染文本方面
该模型可以准确生成
包含清晰易读且位置合理的
文本的图片
在物理知识方面
模型表现也较为出色
根据谷歌的案例
向模型输入
气球飘向仙人掌的图像后
提示其
想象生成下一个可能的情况
从画面来看
模型能够预判
气球爆炸后的物理特征
有媒体报道称
该模型各方面表现堪称优秀
无论是角色的一致性
提示词的跟随
物理逻辑的真实性
还是画面审美方面
都保持了水准
针对深度伪造图像日益增多
导致用户难以辨别
网络信息真实性的问题
谷歌为AI生成的图像
添加视觉水印
并在元数据中嵌入标识信息
有业内人士表示
此次谷歌新模型的发布
不仅是一次技术升级
或将帮助谷歌缩小
与OpenAI之间的差距
参考:杭州日报、第一财经、腾讯新闻、36氪
2022年7月12日,世界互联网大会国际组织正式成立,从互联网领域的国际盛会发展为国际组织,总部设于中国北京。我们将致力于搭建全球互联网共商共建共享平台,推动国际社会顺应信息时代数字化、网络化、智能化趋势,共迎安全挑战,共谋发展福祉,携手构建网络空间命运共同体。