AlphaGo后DeepMind将目标对准足球,研究成果登上《Science》子刊

AlphaGo后DeepMind将目标对准足球,研究成果登上《Science》子刊

AlphaGo后DeepMind将目标对准足球,研究成果登上《Science》子刊

【导读】

「未来的足球比赛会更精彩!」

AlphaGo后DeepMind将目标对准足球,研究成果登上《Science》子刊

2017年5月AlphaGo以总比分3比0战胜世界排名第一的柯洁,成为了历史上第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能机器人。

柯洁与AlphaGo人机大战之后,围棋界公认AlphaGo在围棋领域已远远超过人类棋手的棋力,是人类难以企及的新高度,已然不能被人类所击败,

而AlphaGo是由谷歌(Google)旗下DeepMind公司开发,其主要工作原理是“深度学习”。

现在,DeepMind的研究人员将目标对准了足球,让AI足球运动员学会了踢足球。

尽管偶尔不讲规则,比如比赛中没有角球、点球和任意球等定位球(set piece),但研究团队认为,这一研究推动了人工系统向人类水平运动智能向前迈进。

AlphaGo后DeepMind将目标对准足球,研究成果登上《Science》子刊

相关研究论文《From motor control to team play in simulated humanoid football》刊登在《Science Robotics》 上。

AlphaGo后DeepMind将目标对准足球,研究成果登上《Science》子刊

论文地址:https://www.science.org/doi/10.1126/scirobotics.abo0235

AlphaGo后DeepMind将目标对准足球,研究成果登上《Science》子刊

AI足球运动员是怎么学会踢球的?

五年前,DeepMind研究人员通过强化学习 (RL)训练AI人形角色穿越障碍。

在此过程中,研究人员遇到了两个挑战。一个是AI人形角色会不知道对每个关节施加什么样的力,随时抽搐并迅速跌倒在地。另一个是,AI人形角色无法识别并穿越障碍。

最终,研究人员通过神经概率运动原语 (NPMP)和模仿运动捕捉(MoCap)让AI人形角色学习人类和动物的运动方式。

AlphaGo后DeepMind将目标对准足球,研究成果登上《Science》子刊

一个学习模仿 MoCap 轨迹的智能体(以灰色显示)

在此基础上,AI人形角色学习踢足球几乎是从零开始。

首先,AI人形角色需要通过观看人类运动视频学会行走,因为最开始的 AI人形角色并不知道要在足球场上做什么。

然后,在知道自己做什么之后,AI人形角色可以借助强化学习算法学会踢足球,变成AI足球运动员。

最后,AI足球运动员更进一步,基于另外一种强化学习算法学会如何进行团队协作和更高难度的运动控制。

AI足球运动员在“观看”真实世界足球运动员的视频时,既可以学习足球比赛的基础知识,也可以学习职业运动员在参加高水平体育赛事时的移动方式,从而学习踢足球。

AlphaGo后DeepMind将目标对准足球,研究成果登上《Science》子刊

AI足球运动员可以踢 2V2 和 3V3足球赛

那踢得怎么样呢?

和现实世界不同,DeepMind 团队在此次研究中简化了游戏规则,把两队球员人数限定在了 2-3 人。

但结果显示,AI足球运动员可以在事先不了解足球规则的情况下学会踢球、运球和射门等技能,并在模拟游戏中完成 2V2 和 3V3 的足球比赛。

AlphaGo后DeepMind将目标对准足球,研究成果登上《Science》子刊

在一场 2V2 的比赛中,双方球员先后完成了跑动、逼抢和传球等一系列动作,整个动作十分自然流畅,且充满压迫性。

另外,通过长时间的训练和学习, AI足球运动员学会了灵活的运动控制和多智能体协作能力,完全不亚于现实世界球员的合作。

除此之外,AI足球运动员甚至还会存在对抗、推搡等动作。

AlphaGo后DeepMind将目标对准足球,研究成果登上《Science》子刊

和现实世界相比,目前这项研究也具有一定的局限性。

一方面是参与比赛的AI足球运动员数量较少,只有2-3人,相比于现实世界还是缺少一定的复杂度。

另一方面,由于时间较短,节奏较快,AI足球运动员也没有被赋予调整节奏、保持精力、决定阵型或替换更偏向防守或进攻的球员的能力。

此外,研究团队也表示,他们的方法不适合直接在机器人硬件上学习,研究成果也不会快速从模拟世界转移应用到现实世界。

AlphaGo后DeepMind将目标对准足球,研究成果登上《Science》子刊

AI足球会像AlphaGo让人难以望其项背?

AlphaGo发展了四个版本,第一个版本即战胜樊麾时的人工智能,第二个版本是2016年战胜李世石的阿尔法围棋,第三个是在围棋对弈平台名为“Master”(大师)的版本,其在与人类顶尖棋手的较量中取得60胜0负的骄人战绩。

而最新版的人工智能开始学习围棋3天后便以100:0横扫了第二版本的阿尔法围棋,学习40天后又战胜了在人类高手看来不可企及的第三个版本“大师”。

今年,DeepMind官宣AlphaFold可以预测出2亿多个蛋白质结构,从近100万个结构增加到超过2亿个结构,AlphaFold 数据库扩大了200倍,几乎覆盖了整个“蛋白质宇宙”。

现在AI足球只是相差了20人,相信在不久的将来,AI足球运动员通过不断地学习,在生成复杂运动策略方面的潜力会得以释放。

到时候,更复杂战术和策略会从虚拟映射到真实世界的足球场上。

参考文章:

《From motor control to team play in simulated humanoid football

《DeepMind最新研究:“AI足球运动员”诞生,运球、抢断、传球、射门无所不能》