谷歌发布AI基础世界模型Genie,一张图可生成交互式世界

来源:爱集微 #谷歌# #大模型#
1.4w

集微网消息 OpenAISora之后,谷歌公布了世界模型领域相关进展。

当地时间2月26日,谷歌Deep Mind团队发布基础世界模型Genie生成式交互环境,Genie一词中文意为“精灵”)。DeepMind表示,Genie是一个从互联网视频中训练出来的基础世界模型,可以根据合成图像、照片甚至草图生成各种各样动作可控的2D世界,使人们能够与他们想象的虚拟世界互动。

Genie根据图片生成动作可控的虚拟世界

“只需要一张图片,Genie就可以创建一个全新的互动环境。”DeepMind表示,这为生成和进入虚拟世界打开了大门。例如可以采用最先进的文生图大模型来生成初始帧,然后用Genie赋予它们“生命”。

据了解,Genie是一个110亿参数的基础世界模型,出现要归功于谷歌研究人员开发的可推断视频之间动作的潜在动作模型、将原始视频转换为离散标记的视频分词器,以及推测下一帧的动态模型。

不过,Sora呈现出来的高清晰度、高真实度相比,Genie似乎不那么强调画面真实性,而是将重点放在潜在动作预测上。目前,生成高真实度的视频并非Genie的着力点。

Genie生成的2D游戏画面

DeepMind方面介绍称,Genie“专注于2D平台类游戏和机器人的视频”,“但我们的方法是通用的,适用于任何类型的领域,并可以扩展到更大的互联网数据集。”DeepMind认为,Genie引入了一个能从图像或文本生成整个交互式世界的时代,它将成为训练未来通才AI智能体的催化剂。

然而,目前Genie是一个研究项目,并非最终产品。其训练视频是160 x 90像素的超低分辨率视频,每秒只有10帧,它生成的“游戏”同样是低分辨率的,每秒只有1帧。“该模型目前以每秒1帧的速度运行,所以现在它离实时可玩还很远。”DeepMind开发人员表示。

(校对/张轶群

责编: 张轶群
来源:爱集微 #谷歌# #大模型#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...