强化学习开源游戏 (强化学习开源项目)

强化学习开源游戏,强化学习开源项目

来自网络

强化学习(RL)的目标是训练能够与环境互动并解决复杂任务的智能代理,以及机器人、自动驾驶汽车等现实世界中的应用。 这一领域的快速发展得益于让代理玩游戏,比如标志性的雅达利游戏机游戏[1],古老的围棋游戏,或者专业的视频游戏,比如 Dota 2或 Starcraft 2,所有这些游戏都提供了富有挑战性的环境,新的算法和想法可以在安全和可重复的方式下快速测试。 足球比赛对于 RL 来说尤其具有挑战性,因为它需要在短期控制、基本概念(如传球)和高水平战略之间保持一种自然的平衡。

谷歌6月7号发布足球研究环境[2],这是一个新颖的环境,在这里代理的目标是掌握世界上最流行的运动---- 足球。 仿照流行的足球视频游戏,足球环境提供了一个基于物理的3 d 足球模拟,在这个模拟中代理控制他们队伍中的一个或所有的足球运动员,学习如何在他们之间传球,并设法克服他们对手的防守以得分。

该环境提供了几个关键的组成部分: 一个高度优化的游戏引擎、一套要求很高的被称为足球基准(Football Benchmarks)的研究问题,以及足球学院(Football Academy)——一套 RL 场景。 为了方便研究,谷歌在 Github 上发布了底层开源代码的 beta 版本。

足球引擎(Football Engine)

该足球环境的核心是一个先进的足球模拟,称为足球引擎,这是基于大量修改版本的游戏足球。 根据两支球队的输入动作,模拟一场足球比赛,包括进球、犯规、角球和点球以及越位。 Football Engine 是用高度优化的 c++ 代码编写的,可以在现成的机器上运行,既可以使用 GPU,也可以使用不基于 GPU 的渲染。

足球引擎有特别针对 RL 的额外功能。 首先,它允许学习两种不同的状态表示,其中包含语义信息,如球员的位置,以及学习原始像素。 其次,为了研究随机性的影响,它可以在随机模式(默认启用)和确定性模式下运行,前者在环境中和对手的人工智能行为中都存在随机性,后者不存在随机性。 第三,足球引擎是与广泛使用的 OpenAI gym API 兼容。最后,研究人员可以通过使用键盘或游戏手柄与对方或他们的代理玩游戏来获得游戏的感觉。

足球基准(Football Benchmarks)

利用足球基准,谷歌提出了一套基于足球引擎的研究指标。 这些基准的目标是玩"标准"足球游戏。 一共有三个版本: 足球简易基准,足球中等基准,和足球困难基准。作为参考,谷歌提供了两种最先进的强化学习算法的基准测试结果: DQN 和 IMPALA,它们都可以在单台机器上的多个进程中运行,或者在多台机器上并发运行。

简单的对手可以被一个经过2000万步训练的 DQN 代理打败,而中强对手则需要一个像 IMPALA 这样的分散式演算法,经过2000万步训练代理打败。

强化学习开源游戏,强化学习开源项目

来自论文

足球学院与未来方向(Football Academy & Future Directions)

谷歌还提供足球学院,不同情况下有不同困难的版本。 这使得研究人员可以启动新的研究思路,测试高水平的概念(比如传递) ,并为调查课程学习研究思路提供了基础,代理可以从逐渐困难的场景中学习。 足球学院场景的例子包括这样的设置: 代理必须学习如何对空门得分,他们必须学习如何在球员之间快速传球,以及他们必须学习如何执行反击。 通过使用一个简单的 API,研究人员可以进一步定义他们自己的场景,并训练代理程序来解决。

足球基准和足球学院考虑标准的 RL 设置,其中代理与固定的对手竞争,也就是说,对手可以被认为是环境的一部分。 然而,在现实中,足球是一个两人游戏,两个不同的球队竞争,其中一个必须适应对方的行动和战略。 足球引擎提供了一个独特的机会,为RL提供了更有趣的研究。

参考:

1.https://arxiv.org/abs/1207.4708

2.https://github.com/google-research/football

更多信息请关注 公众号:水木AI,汇先科技提供新闻资讯