首页 > 游戏资讯 > 游戏新闻

OpenAI首个视频模型将如何影响游戏行业？

发布时间：2024-02-16浏览：105

Sora& MineCraft

OpenAI 新推出的首个视频生成模子 Sora，根柢刷屏了朋友圈。但是，笔者发现了一个新的现象——那就是，引发了科技圈外良多专业片子人的关注。可见文生视频，关于当今的应用场景是多么的重要。

那篇论文由 OpenAI 的多位研究人员共同撰写，有一些值得留意的要点：

那篇手艺陈说次要核心是两个方面：

起首，如何将各品种型的视觉数据转化为统一暗示形式，进而实现生成模子的大规模训练；其次，对 Sora 模子才气和局限性，停行了定性评价。

此中提到了一些重点细节：

补片手艺：视觉数据的立异转化。先将视频数据压缩到低维度潜在空间，再将它合成成时空补片，从而实现视频到补片的转化。
视频压缩搜集：OpenAI开发了能够处置原始视频数据的降维手艺，生成在时间和空间上都停行了压缩的潜在表征。Sora 会在那种压缩的潜在空间中接受训练，继而生成新的视频内容。OpenAI还开发了一个解码器，能够将那些潜在表征复原为像素级的视频+图像。
时空补片手艺：通过处置压缩后的视频输入，OpenAI具备提取出一系列时空补片的才气，那些补片在模子中饰演着类似于 Transformer Tokens 的角色。值得一提的是，那套计划同样适用于图像处置，因为从素量上来说，图像能够被视为单帧的视频。接纳基于补片的暗示形式，Sora 能够适应差别分辩率、持续时间及宽高比的视频和图像。在生成新视频内容时，OpenAI能够通过将那些随机初始化的补片，根据需要的大小罗列成网格，来控造最末视频的大小和形式。
视频生成的 Transformer 扩展手艺，Sora 是一种扩散模子，能接受带有噪声的图像块（及前提信息如文本提醒）做为输入，并被训练，从而能够预测出原始的“明晰”图像块。值得留意的是，Sora 属于扩散型 Transformer。

研究发现，扩散型 Transformer 同样能在视频模子规模高效扩展。

总结一下：那篇手艺陈说揭开了 Sora 架构的关键，好比说，Sora 能够生成肆意分辩率和长宽比（更高 1080p）的视频，能够施行一系列图像和视频编辑任务，从创建轮回视频、向前或向后耽误视频时间到更改现有视频的背景。

但笔者最关注的重要的其实是那一段：

数字世界模仿。 Sora 还能模仿数字化过程，如视频游戏，Sora能在控造 Minecraft 游戏角色停行根柢操做的同时，高量量衬着游戏世界及其动态。仅需通过提及“Minecraft”等字样的提醒，即可激发那些才气的展示。Sora 能够 "模仿数字世界"，OpenAI 的合著者如是说。在一次尝试中，OpenAI 将 Sora 放到 Minecraft 上，让它在控造玩家的同时衬着世界及其动态（搜罗物理）。

原文是多么的：“Simulating digital worlds. Sora is also able to simulate artificial processes–one example is video games. Sora can simultaneously control the player in Minecraft with a basic policy while also rendering the world and its dynamics in high fidelity. These capabilities can be elicited zero-shot by prompting Sora with captions mentioning “Minecraft.”

那些功用剖明，视频模子的持续扩展是开发物理和数字世界以及此中的物体、动物和人的高才气模仿器的一条大有可为的路子。

These capabilities suggest that continued scaling of video models is a promising path towards the development of highly-capable simulators of the physical and digital world, and the objects, animals and people that live within them.

OpenAI Sora与Minecraft

Sora 在 Minecraft 中控造一名玩家，并同时衬着视频游戏世界。留意，那里的颗粒感是由视频到 GIF 的转换工具引入的，而不是 Sora。

那么，Sora 是若何做到那一点的呢？根据 Nvidia 高级研究员 Jim Fan提到，Sora 更像是一个 "数据驱动的物理引擎"，而不是一个创意引擎。它不但能生成单张照片或视频，还能确定情况中每个物体的物理特征，并根据那些计算功效衬着照片或视频（或交互式 3D 世界，视情况而定）。

如今，Sora 在视频游戏规模有其凡是的局限性。该模子无法准确模仿玻璃团结等根柢交互的物理过程。即即是它能建模的互动，Sora 也经常呈现纷歧致的情况，例如，在衬着一个正在吃汉堡的人时，却无法衬着咬痕。

不外，Sora 似乎可认为更传神的轨范生成游戏铺平道路。那既令人兴奋，又让人惧怕。

因为关于我们来说，将来视频伪造的查验难度很可能会更高。

参考质料：

1.Video generation models as world simulators (openai.com)

2.OpenAI’s Sora video-generating model can render video games, too | TechCrunc

热点资讯