AI雀神征服一大波麻将好手!人类玩家表示:太“南”了…

说起中国的国*运民**动,麻将,人们不免在逢年过节时会打上几圈。四川麻将、上海麻将……麻将种类也颇多。追溯中国人打麻将的历史,可以回到晚清时期。不过,今天牌局的“主角”是,人工智能。

AI雀神征服一大波麻将好手!人类玩家表示:太“南”了…

人工智能发展带动了游戏AI的发展。由微软亚洲研究院(MSRA)开发的麻将AI系统Suphx,成为首个在国际专业麻将平台——“天凤”上荣升十段水准的AI系统。“天凤”是全球麻将在线平台,总部位于日本,拥有30多万会员。这是目前AI在麻将领域取得的最好成绩,Suphx的能力超越了该平台公开房间顶级人类选手的平均水平

最近结束的2019世界人工智能大会(WAIC)上,微软全球执行副总裁Harry Shum博士正式发布了MSRA的Suphx AI,这也被称为“史上最强大的麻将AI”。接下来让我们一睹这位AI“雀神”的风采吧!

AI雀神征服一大波麻将好手!人类玩家表示:太“南”了…

Suphx vs.人类玩家,大展拳脚

Suphx AI系统在天凤平台上通过与人类选手的对战,从而来学习麻将的复杂之处。今年3月至6月,Suphx与人类进行了超过5000场比赛,通过算法为自己赢得了十段的段位(译者注:最高段位是十一段,只对人类玩家开放)。在这5000余场对局中,Suphx的稳定段位在8.7左右,据统计,天凤平台所有顶级人类选手在取得十段后的近万场比赛中,整体稳定段位为 7.4。与所有取得过天凤十段的顶级人类玩家相比,Suphx的稳定水平还要领先约1.3 个段位

AI雀神征服一大波麻将好手!人类玩家表示:太“南”了…

在Suphx活跃于天凤平台之前,还有另外两个麻将 AI存在,分别是由东京大学在 2015 年开发的“爆打”和 Dwango 公司于 2018 年基于深度学习模型而开发的NAGA25。通过它们的对战数据看到,二者的段位才稳定在 6.5 左右。

微软克服麻将AI的“痛点”

当AI处理起麻将问题时,比其他棋盘游戏更复杂,因为麻将是一种不完美信息游戏。从博弈论的角度来看,它与国际象棋和围棋等完美的信息游戏有较大区别,麻将运动员必须依靠观察、直觉、策略、计算和组合机会的方式获胜,然而这对于人工智能系统来说是极具挑战性的。所以,Suphx战胜人类的结果,一定程度代表着AI具有糅合传统智慧与现代科学的超高能力

目前,关于Suphx AI的模型特点相关论文尚未发表,但是近期MSRA在其博客上提前揭示了一些技术特性以及AI系统所应用到的策略,解释了研究团队如何通过深度强化学习(deep reinforcement learning)来训练Suphx,从而使其克服麻将AI的痛点:

AI雀神征服一大波麻将好手!人类玩家表示:太“南”了…

采用自适应策略。与只有52张牌的德州扑克相比,麻将有136张牌其排列组合的可能性更多;同时,在一局麻将中玩家出牌不具有顺序性,任意玩家的“吃碰杠”都可能使出牌顺序突然改变,导致游戏树不规则、且处于动态变化的状态。于是研究团队针对这种复杂而又巨大的变化空间,对Suphx采用自适应学习策略,这样人工智能系统可以动态调节自己的状态从而适应牌局中的千变万化,这样能比传统算法策略更有效地预测牌局发展方向。

AI雀神征服一大波麻将好手!人类玩家表示:太“南”了…

先行教练技术。为了解决不完全信息的挑战,Suphx使用了基于深度强化学习的“先行教练”技术。其基本思想是:在AI采取自适应策略进行学习的阶段,利用牌局隐藏信息指导模型的训练方向,使AI的学习路径更接近最优路径,掌握的牌局信息更完善。这样的方法能使Suphx更深入地研究和理解可见信息、挖掘隐藏信息从而为决策提供有效的依据

全面预测技术。为针对麻将复杂的牌面表达和计分机制,研究团队还利用全面预测技术搭建起每轮比赛和 8 轮过后的终盘结果之间的桥梁。这个预测模型经过算法训练设计而成,可以理解每轮比赛对终盘的不同贡献,从而将终盘的奖励信号合理地分配回每一轮比赛之中,以便对自我博弈的过程进行更加直接而有效的指导,并使 Suphx 可以学会一些具有大局观的高级技巧

打破技术边界,展望未来

AI雀神征服一大波麻将好手!人类玩家表示:太“南”了…

就麻将这项益智类运动本身而言,当其披上“人工智能”的外衣、进驻麻将社区/平台,能成为更多人类麻将选手的良师益友,凭借高超的牌技可以促进人类麻将运动的发展。未来,微软亚研院希望,Suphx 能获得与天凤平台的顶级(十一段)麻将高手进行切磋和学习的机会,进一步提升和精进 AI 在麻将领域的推理和决策水平。

就游戏AI 发展而言,目前Suphx所取得的成绩还未覆盖所有麻将种类,麻将AI还有上升的空间。纵观历史,游戏AI的发展始终伴随AI 研究的最新进展,许多关于人工智能的研究旨在创造一个智能体,该智能体根据环境做出动作,以最大化成功率为目的。但,微软希望通过对 Suphx 的研究,不断打破已有的AI技术边界,在实现超强智能体的同时,更将“让玩家有一段美妙的游戏体验”作为终极目标,从而推动人工智能应用于游戏领域的进步。

就真实世界而言,现实世界往往由许多的随机事件构成,在很多情况下我们没有“预知”的超能力,真实信息以及许多令人措手不及的状况远多于我们能够掌握的范围,然而我们仍要在这样信息不完全的情况下做出各种决策。如果Suphx背后的这些策略以及其算法模型能应用于预测真实世界状况,诸如智能交通、金融投资等领域中随机突发状况也将会更好地被人类掌控。

欢迎大家关注我的头条号,私信“python",学习资料包免费分享给需要的朋友,另有python学习交流群,可以交流学习拓展人脉。