视讯游戏提供最新游戏下载和手游攻略!

OpenAI首个视频模型将如何影响游戏行业?

发布时间:2024-02-16浏览:105

Sora& MineCraft

OpenAI 新推出的首个视频生成模子 Sora,根柢刷屏了朋友圈。但是,笔者发现了一个新的现象——那就是,引发了科技圈外良多专业片子人的关注。可见文生视频,关于当今的应用场景是多么的重要。


那篇论文由 OpenAI 的多位研究人员共同撰写,有一些值得留意的要点:

那篇手艺陈说次要核心是两个方面:

起首,如何将各品种型的视觉数据转化为统一暗示形式,进而实现生成模子的大规模训练;其次,对 Sora 模子才气和局限性,停行了定性评价。

此中提到了一些重点细节:

  • 补片手艺:视觉数据的立异转化。先将视频数据压缩到低维度潜在空间,再将它合成成时空补片,从而实现视频到补片的转化。

  • 视频压缩搜集:OpenAI开发了能够处置原始视频数据的降维手艺,生成在时间和空间上都停行了压缩的潜在表征。Sora 会在那种压缩的潜在空间中接受训练,继而生成新的视频内容。OpenAI还开发了一个解码器,能够将那些潜在表征复原为像素级的视频+图像。

  • 时空补片手艺:通过处置压缩后的视频输入,OpenAI具备提取出一系列时空补片的才气,那些补片在模子中饰演着类似于 Transformer Tokens 的角色。值得一提的是,那套计划同样适用于图像处置,因为从素量上来说,图像能够被视为单帧的视频。接纳基于补片的暗示形式,Sora 能够适应差别分辩率、持续时间及宽高比的视频和图像。在生成新视频内容时,OpenAI能够通过将那些随机初始化的补片,根据需要的大小罗列成网格,来控造最末视频的大小和形式。

  • 视频生成的 Transformer 扩展手艺,Sora 是一种扩散模子,能接受带有噪声的图像块(及前提信息如文本提醒)做为输入,并被训练,从而能够预测出原始的“明晰”图像块。值得留意的是,Sora 属于扩散型 Transformer。

研究发现,扩散型 Transformer 同样能在视频模子规模高效扩展。

总结一下:那篇手艺陈说揭开了 Sora 架构的关键,好比说,Sora 能够生成肆意分辩率和长宽比(更高 1080p)的视频,能够施行一系列图像和视频编辑任务,从创建轮回视频、向前或向后耽误视频时间到更改现有视频的背景。

但笔者最关注的重要的其实是那一段:

数字世界模仿。 Sora 还能模仿数字化过程,如视频游戏,Sora能在控造 Minecraft 游戏角色停行根柢操做的同时,高量量衬着游戏世界及其动态。仅需通过提及“Minecraft”等字样的提醒,即可激发那些才气的展示。Sora 能够 "模仿数字世界",OpenAI 的合著者如是说。在一次尝试中,OpenAI 将 Sora 放到 Minecraft 上,让它在控造玩家的同时衬着世界及其动态(搜罗物理)。

原文是多么的:“Simulating digital worlds. Sora is also able to simulate artificial processes–one example is video games. Sora can simultaneously control the player in Minecraft with a basic policy while also rendering the world and its dynamics in high fidelity. These capabilities can be elicited zero-shot by prompting Sora with captions mentioning “Minecraft.”

那些功用剖明,视频模子的持续扩展是开发物理和数字世界以及此中的物体、动物和人的高才气模仿器的一条大有可为的路子。

These capabilities suggest that continued scaling of video models is a promising path towards the development of highly-capable simulators of the physical and digital world, and the objects, animals and people that live within them.

OpenAI Sora与Minecraft

Sora 在 Minecraft 中控造一名玩家,并同时衬着视频游戏世界。留意,那里的颗粒感是由视频到 GIF 的转换工具引入的,而不是 Sora。

那么,Sora 是若何做到那一点的呢?根据 Nvidia 高级研究员 Jim Fan提到,Sora 更像是一个 "数据驱动的物理引擎",而不是一个创意引擎。它不但能生成单张照片或视频,还能确定情况中每个物体的物理特征,并根据那些计算功效衬着照片或视频(或交互式 3D 世界,视情况而定)。

如今,Sora 在视频游戏规模有其凡是的局限性。该模子无法准确模仿玻璃团结等根柢交互的物理过程。即即是它能建模的互动,Sora 也经常呈现纷歧致的情况,例如,在衬着一个正在吃汉堡的人时,却无法衬着咬痕。

不外,Sora 似乎可认为更传神的轨范生成游戏铺平道路。那既令人兴奋,又让人惧怕。

因为关于我们来说,将来视频伪造的查验难度很可能会更高。

参考质料:

1.Video generation models as world simulators (openai.com)

2.OpenAI’s Sora video-generating model can render video games, too | TechCrunc

热点资讯