我们如何通过模仿自然演化出能在RoboCup竞赛中获胜的策略

“在足球运动中,由于敌方球队的存在,一切都变得及其复杂。”法国哲学家让·保罗·萨特的这一评论已经在很多不同的语境中被引用,从体育竞技团体的策略制定到微观经济学的游戏理论模型,还包括已经发展成熟的机器人竞技运动。

这些研究的共同线索是冲突对抗:对立的互动会带来一种无序状态,可以扰乱大多数已经制定好的计划。

这个原理在很多领域中都适用。只要进行了设计——无论是制定策略还是工程蓝图——就会遇到一些无法预知的情况——例如对手制定的新策略或者自然灾害——原定的设计很可能全面崩盘,无论计划有多么详尽、做过多少优化措施。

一个复杂系统应对突发紧急状况的方法之一,是利用系统各个部分之间的自组织,来适应不断变化的外界条件。

但这种方法也需要付出代价。如果你只通过对一个复杂系统进行拆解,单独分析其每个组成部分的行为,是很难预测这一复杂系统整体的行为状况的。

那么有没有方法能够预知意外状况呢?这是“复杂系统”的研究者们面对的核心挑战,而他们正是希望设计和建造具有内在抗扰性和适应性的系统。

人工进化

我们可以回到足球来讲述这一挑战,特别是机器人足球。

RoboCup可以说是机器人足球比赛中的世界杯。这个比赛已经创办了接近20个年头,近期的比赛吸引了来自超过45个国家的40000多名观众及参与者。

这个比赛还引领着人工智能、机器人和多主体复杂系统研究领域新标准的发展。

虽然实体机器人联赛吸引了大多数人的注意,但还有一个虚拟机器人联赛,它关注的是虚拟AI的发展。

在RoboCup的二维虚拟机器人联赛中,双方球队各由11个独立的软件程序虚拟球员(称为“主体”)组成,在一个虚拟的二维足球场中进行比赛,比赛过程不允许对球员进行远程控制。整个RoboCup社群已经专注于开发这个开源的模拟和视觉化软件超过20年,代码数量已接近一百万行。

球场上的每个主体都有着虚拟的视觉、听觉和物理感受器,用以感受周围发生的事情。每个主体都可以执行一些基本的动作,如跑动、转向和踢球。

主要的挑战是如何在每个特定的时间点推断出当前能做的最佳动作,同时还要面对对方球员的干扰和意料之外的行为。

每一步模拟只有十分之一秒的时间,这个时间内每个主体都要完成一个感应–行动的循环。这个循环起始于从模拟器中接收到的最新感受信号输入,然后对所有可能的选择做出评估——每个循环都有多达10万种可能性——然后把所决定的行动信号反馈给模拟器。

于七月赢得2016年虚拟联赛的球队Gliders2016,是悉尼大学(Mikhail Prokopenko教授,Victor Jauregui博士)和 联邦科学与工业研究组织(CSIRO)(Peter Wang,Oliver Obst博士)合作的成果。

我们如何通过模仿自然演化出能在RoboCup竞赛中获胜的策略

为了对球队进行优化,我们使用了一套基于人类的演进算法。用这种方法我们创造并测试了新的行为模式,对人工智能的表现进行了迭代优化。

我们联合了几台超级电脑来对软件进行测试,每天进行成千上万次的试验运行。试验的总数已经接近1000万次。

更大的关注范围

在测试过程中,我们关注的不仅仅是每个主体的表现或者作为一支球队的整体表现,我们关注的范围还要更大。

我们还会注意敌方球队的行为的复杂性,以及我们的软件在这些变化中的适应性、弹性和抗扰性。

我们分析了球队如何面对一种突发的状况,就是在一场比赛中对方会突然爆发,以及球队能否在一场比赛中遇到的突然挫折中恢复过来。

我们如何通过模仿自然演化出能在RoboCup竞赛中获胜的策略

这些问题与复杂系统遇到的普遍问题有很多共同之处。我们必须考虑初始条件的任何细微变化——例如,增加对发球的风险耐受度——会影响到整个结果。另一方面我们还要考虑动态的系统是否会沿同一轨迹发展。我们还研究了随机性在模拟过程中扮演的角色,以及如何对隐藏的变量进行建模。

简而言之,我们探索了复杂系统如何帮助我们成为2016年RoboCup的获胜球队。

来自自然的灵感

我们球队的战略灵感来源之一是对鸟群和鱼群的观察。这些都是生物学中复杂系统的经典例子。

为了应对捕食者,很多鱼群都显示出了复杂的空间聚合模式,这样一个小小的外部扰乱可以迅速地传播到整个群体,这对它们来说就是求生的关键信息。

对于我们的RoboCup球队来说,类似的行为模式让球员的运动模式具有高度的条理逻辑性。一方面,球员可以根据对手的情况不断挑整自己的位置,另一方面位置的调整又不是无规则的,它们的移动是相互配合的。

球队的战术也在不断的演进,以应对不同种类的对手,创造了球队行为丰富的多样性,也增加了抗扰性和应变性。我们用信息理论来评估这种方法,对系统内部的“信息流”而不只是“数据流”进行量化和预测。这其中的关键区别在于,信息提供了数据的上下文语境,信息流能强调出最有相关性、最重要的动态。

RoboCup参赛球队的复杂度只会随着时间而不断增加,今后还会遇到新的挑战、需要解决新的问题,毕竟整个技术和人们解决问题的主动性也在不断地前进。

相信全新的一代科学家和工程师将在2036年主导一轮新的创造,届时RoboCup已经走过了又一个20年。

到那时,作为一个研究领域额复杂系统很有可能会在世界范围内的教育项目中占据核心位置,与信息技术、物理学、生物学和数学等学科整合在一起,引领未来的工程、科学和商业。