OpenAI训练AI模型自主适应新的游戏环境

人工智能玩复杂的战略游戏如《刀塔 2》和《星际争霸 2》已经达到世界一流水平，但仍然不能在游戏之间灵活切换。OpenAI希望通过一个用于 AI 训练的新游戏集合来改变这一现状。该游戏集合能不断为 AI 训练生成新的游戏片段，从而使 AI 自主适应新的游戏环境，并不断寻求新的解决方案。

强化学习（解释）被认为是实现超级 AI 的有前途的方法。这一方法使 AI 代理通过试错法学习赢得比赛：如果它的行为接近目标，它将得到奖励；如果他的行为偏离了轨道，他将受到惩罚。他一点一点地找到获胜的方法，并使行为变得更有效率。

用这种方法训练的 AI 模型甚至可以在超人的水平上掌握复杂的游戏。但是，由于它总是只学习一个游戏与相同的游戏部分，无法应付变化。即使是同一游戏的不同的游戏段顺序也会导致 AI 的性能显著降低。对于一款新游戏，AI 需要重新训练。这种过度适应也发生在其他 AI 区域，如图像分析 AI——即使是环境条件的微小改变也会导致性能的巨大损失。

现在，OpenAI 发布了一个用于增强 AI 学习能力的电子游戏测试环境，其中 16 个小游戏不断为 AI 训练生成新的游戏片段。其背后的理念是，通过许多不同的游戏和永久的变化，AI 应该获得不同的能力，并不断寻求新的解决方案。

通过这种方式，AI 被迫制定通用策略——因此，由于新环境的出现，它不会很快失败。至少在理论上是这样。

这 16 款游戏是简单电子游戏互动的典范：AI 跳跃，迷宫导航，躲避对手或击落飞船。这使 OpenAI 的 Procgen 基准比 Unity 的 Obstacle Tower 培训环境（后者也依赖于程序生成的环境）更加多样化。游戏的简单结构也能使开发中的迭代速度加快。

在最初的测试中，一个 AI 模型需要平均进行 500 到 1,000 次训练，然后才能在没有先前训练的情况下达到新的水平。OpenAI 写道，在将 AI 推广到控制一个新的部分之前，在某些情况下需要高达 10000 个训练级别。。

强化学习的基准需要寻找多样性，否则就不会发现过度适应。在《太空入侵者》50 级中成功的 AI 可能在未知的 51 级失败。这种拟合不会立即就显而易见：经过几次训练之后，AI 代理经常显示出改进。这导致了 AI 实际上控制游戏的谬论，而实际上它只是掌握了训练的水平。

然而，强化和广泛的训练是值得的：与监督学习不同，在监督学习中，AI 性能随着数据集太大或训练时间太长而降低，但随着学习的加强，AI 会不断提高性能。为什么这种现象在一种学习方法中发生而在另一种学习方法中没有发生，以及是否可以从中得出规则尚不清楚。

OpenAI 已经使用 Procgen 作为自己 AI 测试的基准。研究人员称，获得的结果将用于更复杂的 AI 实验。Procgen 在 Github 免费提供。

【数字叙事黎雾】

有问题和想法？与数字诗人讨论、交流，以获得更多的信息、意见。

上一篇文章

大卫·林奇将电视剧《双峰》变成了怪诞的VR游戏

下一篇文章

基于狄更斯《圣诞故事》的沉浸体验来到主流VR平台

构建了一个充满可能性的世界，《Freeland》抢...

领域

媒介

专题

文类

发现

OpenAI训练AI模型自主适应新的游戏环境

发表评论取消回复

订阅

Carrie Able：一位创作混合现实艺术的“混...

《Corpus Misty》导演谈这部既抽象又真切...

《Age of Sail》：与VR的结合会拯救电影...

PanoMoments是一种沉浸式即时叙事媒介，被...

Dramatron：一个可以创作电影和戏剧剧本的A...

相关文章
Related

构建了一个充满可能性的世界，《Freeland》抢...

VR生存大作《Into The Radius》PS...

VR模组将热门科幻游戏《System Shock》...

MR游戏《Starship Home》9月26日在...

关于我们

文类

最新

构建了一个充满可能性的世界，《Freeland》抢...

VR生存大作《Into The Radius》PS...

VR模组将热门科幻游戏《System Shock》...

订阅

领域

媒介

专题

文类

发现

OpenAI训练AI模型自主适应新的游戏环境

发表评论 取消回复

订阅

相关文章Related

关于我们

文类

最新

订阅

发表评论取消回复

相关文章
Related