Xtecher专访世界顶级计算机大师,聆听他的“小小梦想”

Xtecher专访世界顶级计算机大师,聆听他的“小小梦想”

2017年3月29日晚,在创新工场的组织中,Xtecher采访了卡内基梅隆大学(Carnegie Mellon University,以下简称CMU)计算机学院院长Andrew Moore教授。这是CMU知名扑克机器人Libratus主创团队访问中国“大战”之前的序曲,距离4月6日至10日将在海南举行的“冷扑大师 vs 中国龙之队——人工智能和顶尖牌手的德州扑克表演赛”,只有一周左右的时间了。

采访|甲小姐

撰文|甲小姐、郭宝婷

网址|www.xtecher.com

微信公众号ID|Xtecher

Xtecher专访世界顶级计算机大师,聆听他的“小小梦想”

上图,是2015年创新工场CEO李开复获CMU大学颁给荣誉博士毕业演讲前,与计算机学院院长Andrew Moore的合影。当时,大家都拿了魔杖,这源自英国科幻文学大师暨未来学家Arthur Clarke爵士的一句话:

“任何重大的技术突破,一定都带着某些常人难以理解的魔法。”

Xtecher专访世界顶级计算机大师,聆听他的“小小梦想”

采访现场

后排左一:李开复 后排左二:Andrew Moore 前排左三:甲小姐

人机心理战

德州扑克机器人Libratus最近很风光。

今年1月,Libratus在宾夕法尼亚州匹兹堡Rivers*场赌**的德扑牌桌上,将4位人类职业玩家挑落马下,夺走了共计176万筹码,一举震惊世界。

与跳棋、象棋乃至围棋信息一览无余展现在棋盘上的情况不同,人工智能玩德扑,难点在于“不完整信息”(imperfect information)博弈。在德扑游戏中,人工智能需要面对未知的信息——对手的手牌,以及德州扑克里虚张声势(bluffing)的技巧,对于机器来说,这是难上加难的挑战。

Libratus与去年年初大火的围棋智能AlphaGo的区别正在于此,“其实扑克比围棋规则相简单,但有大量的不完整信息。围棋就没有,但是每一步都要进行很深、很广的搜索。”CMU计算机学院院长Andrew Moore教授告诉Xtecher。

那么,诞生于CMU的Libratus的核心算法是什么?

Andrew Moore说,表面上大家看到的是机器人打扑克,实际上,背后是一个大型的AI谈判算法。

采访之中,Andrew Moore一度笑着自我调侃:“我也玩扑克,但是因为我常常诈唬,所以我打得不好。”这也侧面道出了Libratus的技术原理。

事实上,对于CMU所研发的Libratus而言,所谓的“心理战”,背后并没有用到任何心理战的机制——完全是大量的数学。例如,扑克中的“诈唬”,在实际的演算法里,并不是让机器学诈唬的招数,而是计算出诈唬的数量要在多少才是最优的,多一点诈唬还是少一点诈唬才能产生最高的胜率——背后还是数学。

“曾经,著名的数学家John Nash发明了一个公式去解答这样的题目,但是这个公式里有亿兆的可变因素在里头。我们所做的AI扑克演算法里面已经找到了一个接近最佳近似值的解答来解这道题——John Nash也是CMU的校友。”

值得注意的是,Libratus并没有用到神经网络、深度学习的技术,而是用了比较古典的线性规划(linear programming),以寻找最优解。

“线性规划是核心方法。过去十年来,有相当多的大数据运算及大型机器学习在发生,但现在更大的突破是我们钻研的这种新型的优化方法。”Andrew Moore告诉Xtecher。

Xtecher专访世界顶级计算机大师,聆听他的“小小梦想”

创新工场CEO李开复老师是将Libratus带到中国的人,还给它起了个有趣的中文名:“冷扑大师”

作为创投圈内知名的德扑选手,李开复曾写过一篇文章,说玩德扑最重要的是避免贪心、侥幸心理这些人性的弱点,其实用统计和概率就可以赢。对于这个观点,Andrew Moore表示认同,但他指出,单纯地用统计和概率去博弈是不够的,就好比网络诈骗集团,如果他们想骗过你,必定先预测了你的防守方法,并在此基础上制定攻击策略,同理,如果你知道对方要用概率打牌,己方便可以先用一种套路来测试对方的逻辑,摸清后随之改变自己的应对套路。

“有一些互联网巨头过去投资了大量的资源在机器学习上,特别是用统计和概率方法做解法的,后来都损失很惨重。”

因此,“冷扑大师”坚持用线性递归来寻找最优解。这其中不仅包含了统计和策略,也包含了巨大的信息处理计算量。据Libratus发明者、CMU的Tuomas Sandholm教授称,Libratus会在每天游戏结束后分析自己用得好的策略和出现的漏洞。Andrew Moore也在采访中告诉Xtecher:“冷扑大师的程序如果要让人类去计算,大概得花人类1000万个小时。”

Xtecher专访世界顶级计算机大师,聆听他的“小小梦想”

人工智能谈判技术:

机器人会“骗人”吗?

“我们的教职员深深相信,电脑程序已经可以彼此对话,甚至可以进行谈判了。谈判对象有时是人,有时甚至是电脑跟电脑谈判。”

如今,Andrew Moore最关注的领域之一正是“人工智能谈判技术”。

所谓谈判,指的是一种博弈,或者是一种对战。在对战与博弈中,一定有一些隐藏信息。而人工智能谈判技术的研发,其目的就是让电脑在谈判过程中有策略地一步步揭露、挖掘对方有意隐藏的信息。

“冷扑大师”只是人工智能谈判技术的应用场景之一。

联想到我们生活中无处不在的博弈场景,一个问题自然出现了:当人工智能学会了博弈和谈判,是否也就意味着,人工智能拥有了“不听话”、甚至“欺骗”的能力?

这不禁让Xtecher联想到刘慈欣的科幻小说《三体》——书中所描绘的三体人虽然技术比人类先进许多,其短板恰恰在于它们无法隐瞒自己的大脑,也无法甄别人类的“谎言”,这成为人类战胜三体人的重要前提——在《三体》的第二部,人类发起了精彩绝伦的“面壁计划”,利用策略和谎言,让三体人束手无策。

这似乎意味着,“隐藏信息”和“欺骗”本身是一种更高级的智慧象征。那么,当人工智能学会了谈判和博弈,是否意味着人工智能有一天也会向人类刻意隐瞒信息,从而最终走向人类无法揣摩和控制的阶段?

Andrew Moore分两部分回答了Xtecher的问题。

第一部分,他谈到了CMU所研发的人工智能谈判技术的具体形式。

其中一个领域是类似拍卖或者竞标的形式,比如广告的竞价排名和一些物流运输业行业的竞拍竞标机制。“竞拍中间的过程其实相对是复杂的,双方要经过序列式的猜测,我先猜你再猜,所以有一个顺序性的隐藏信息在逐步被揭露。在Sandholm 教授的发明中有一个非常聪明的机制,这个聪明的机制叫做第二价格竞拍(second price auction)。这是一个竞拍中的机制,它的基本原则是:竞价者以密封的形式报价,商品会由出价最高的投标者获得,但是只需按第二高的出价进行购买。为了去赢得这个竞拍,研究出来最好的策略是永远保持诚实。科学家在发明AI谈判算法的时候所用的策略就是尽可能地促使每一个参与者都说实话,第二价格竞拍其实在传统拍卖行业中不是一个新制度,但在AI领域反而促进了全新的发明。”

第二部分,他谈到了“隐藏事实”。

这是一项有关对抗所有的网络攻击或者垃圾邮件的技术。所有电子邮箱的服务供应商都投注了大量的资源研发各种方法来阻挡垃圾邮件,但这些方法是绝对“不能公布”的,因为你一旦公布,很快就会被破解了,会被想攻击的不法分子所用。因此,对于所谓的“坏蛋”,我们反而是需要一些被隐藏的演算法来欺骗他们,不告诉他们实话。

那么回到我们的问题:现在的计算机程序究竟是否有学习能力反过来欺骗人类?

Andrew Moore的回答斩钉截铁,“在现阶段,还没有方式会使电脑自己‘产生动机’去做这件事情,电脑没有办法‘主动’去欺骗人。”

换句话讲,如今的AI可以做到的是,如果人类程序员或者发明家给电脑设定一个目标,它会以尽可能极大化、极优化的策略去达到那个目标,程序或算法自身不会起心动念要去“干坏事”。

因此,在现阶段潜在的危机并非“电脑想欺骗人”,而是某“坏蛋”命令电脑去做一件不好的事情,而且让它不要告诉别人。对此,Andrew Moore告诉Xtecher,在CMU已经有一些正在研习人工智能的学生会自发选修关于道德理论和道德自律的课——现如今,师生们已经有了这样的共识和自律精神,他们一方面掌握了更先进前沿的技术,与此同时,亦肩负着更深更重的道德责任感。

智能博弈的商业价值

由扑克牌机器人带动的“人工智能博弈能力”,将来的商业化场景在哪里?

Andrew Moore最看好的,是其在企业之间商业谈判上的应用。

未来,货物供需和交易,都可以用AI驱动的商业谈判算法来进行。在谈判过程中,AI可以根据大量数据得出对方底价,推敲对方议价的逻辑,“AI会驱动商业自动化的时代到来。”

商业谈判的场景很多,比如买卖房屋时的价格谈判。Andrew Moore开了一个玩笑:“如果我委托中介卖房,他们一下子把我的底价告诉买主,我一定马上把他开了。”

当被问到人工智能博弈的技术是否可以应用在股票交易上时,Andrew Moore表示否定,因为股票交易本身并没有隐藏信息,相对公开,并不适用这一套策略和算法。

Andrew Moore还讲述了谈判算法的另一个应用场景:器官移植。

“在一群有器官移植需求的人当中,谈判技术能够更快速地在捐赠者跟受赠者之间进行媒合匹配以及合理交易。目前,类似的谈判算法实际上在美国已经开始为数百个肾脏捐赠者进行服务,快速让器官捐赠有效地执行。这是能够拯救人命的一个应用场景,我觉得非常重要。”

Andrew Moore甚至还讲述了一个更有趣的场景:“我有一个非常期待的课题,我想任何AI领域的创业者都可以来试试。现在每个人都用智慧型手机,我的手机在未来,应该能够代表我进行谈判。比如我想要预定一个酒店,我手机上的人工智能应该可以替我来跟这个酒店谈判:除非你给我一个好价钱,不然我为什么住这里?”

人工智能的“下一章”

让我们的叙述回到Andrew Moore本人。

他是CMU计算机学院第五任院长,担任这一职务已经两年,这是他心中“有史以来最令我激动的工作”。在他的学院里,汇集了200位教职员,超过3000名学生,构成了站在技术前沿边界的、在世界上颇有影响力的一个群体。

他曾十分可爱地用自己的邮箱总结自己的经历:

awm@cs.cmu.edu 2014年8月18日起,出任计算机学院院长。
awm@google.com Google工程副总裁。建立Google匹兹堡工程办公室,帮助改善Google购物系统,打击欺诈行为。
awm@cs.cmu.edu CMU计算机系、机器学习系、机器人中心教授。
awm@schenley.com 制造业统计数据挖掘咨询公司,联合创始人。
awm@ai.mit.edu Chris Atkeson机器人实验室,博士后。
awmo@cl.cam.ac.uk 研究生。那时还不能用3个字母当用户名。

出任院长之前,他曾是Google的工程副总裁,从Google回到学校,是因为“学校实验室里引领着更新的技术,这让我特别着迷。”

事实上,在进入Google之前,他已在CMU拿到终身教职,两年前返回校园,他便将目光聚焦在人工智能的动向上。这份选择体现了Andrew Moore的兴趣:相比于大企业专注于技术变现的基点,他更期待“人工智能发展的下一章”。

他告诉Xtecher:“CMU在10到15年前已经在研发无人驾驶技术,现今无人驾驶在商业领域开始蓬勃发展,很多科技巨头都在做,但给我们教授和学生的课题是:基于目前无人驾驶已被商业化的现状,未来的无人驾驶领域还可以往哪里走?无人驾驶的下一章是什么?”

在Andrew Moore的理解中,产业与学术建立关系,一定要有所取舍和平衡。

“就像一个甜甜圈,”Andrew Moore用了这样的比喻,“甜甜圈的中心,是产业里公司优秀的科学家和核心技术。但这不是和学界建立关系并增值的好地方,只纠结于保密协议和知识产权保障的那部分是不行的,必须要往甜甜圈的边缘移动。但也不能离开核心技术太远,超出了甜甜圈的边缘,效用也会下降。”

事实上,他自己一直践行着在“甜甜圈边缘”的产学合作:在Google做过优化购物系统的反垃圾程序,在生物小组参与过针对传染病的智能型生物监测,还在农业领域研究过智能感应器,还非常关注医学领域的应用。

Andrew Moore在一次会议上发表了这篇介绍“甜甜圈模型”的产学关系文章,标题是《与钱无关:优化产学合作关系》(It’s Not About the Money: Optimizing Academic-Industrial Partnerships)。

钱,几乎从未出现在过他评断标准里。对他而言,AI技术虽是各个公司和研究机构各自竞争、藏着掖着想保护的核心,但对他更重要的,永远是这些技术究竟如何使社会变得更好。

当被问及他对什么样的人工智能初创团队更感兴趣时,他坦言,此次中国之行,他也寄厚望于看到垂直领域的应用方案。“我鼓励中国的创业者,尽量在特定的垂直领域做一些应用发展。我举两个做人工智能的例子,一个是某个创业者针对有自闭症的孩子去研发一种新的解决方案——这非常棒;另一个是平台思维,目标是让机器学习更精进那么一点点——这就不怎么吸引我。

让AI人才循环起来

采访之中,Xtecher提到了一则过去的新闻:两年多前的2015年1月,Uber曾从CMU的国家机器人工程中心(National Robotics Engineering Center)挖走了大约50名研究自动驾驶汽车技术的科学家。一个问题摆在Andrew Moore和几乎所有人工智能院系的掌门人面前:学校应该做什么样的努力才能够让人才更容易留下来?

Andrew Moore告诉Xtecher,自从他回归CMU出任院长,他已经目睹了5位教职员离开学校进入产业,但同时也有26位学术新秀进入学院。他说,“产业繁荣其实是一件好事,现在匹兹堡已经变成在全美无人驾驶的中心,对于整个城市和CMU学校都是很正面的影响。如果有教职员提出他们想要离职投入产业或者创业,我不会拦阻,反而会鼓励他们。”

事实上,Andrew Moore并不希望一味地将学者们*绑捆**在高校,他反倒提出了一个让人眼前一亮的“循环论”:“我给新教职员的建议是:可以在学校做四、五年研发工作,再到产业里面去做大概三年,然后再回来学校继续做更多更先进的研发,然后再到产业……以此类推,循环起来。”

在Andrew Moore在个人主页上,他共享了大量自己制作的教程,涵盖了贝叶斯网络、客户流失分析、反恐分析、医学信息学、国家零售数据分析、计算物理、客户投诉监控、电子病历监控、时间序列分析、空间数据结构、疾病群检测、社会网络分析等具体领域里运用数据挖掘和增强学习的教程,*载下**量已经达到100多万次——他自己正是产学结合的最佳范本。

2005年,他被美国人工智能协会(AAAI)评为荣誉成员,嘉奖他对机器学习、数据挖掘和人工智能的重大贡献,以及他将这些技术转移到工业和政府方面的应用。

Xtecher专访世界顶级计算机大师,聆听他的“小小梦想”

Andrew Moore在Google匹兹堡办公室

天堂匹兹堡

如今,Andrew Moore和妻子玛丽,还有一双儿女威廉和露西一起,生活在匹兹堡。

对Andrew Moore影响最大也是他最喜欢的地方,大概就是匹兹堡了。这是CMU校园所在地,也是目前各大公司自动驾驶研发的中心城市以及机器人技术的核心输出地——事实上,即便他离开CMU加入Google的那段时期,他也不曾离开这里,而是创建了Google在匹兹堡的办公室。

Andrew Moore说,他钟爱这座有着机器自动化café culture的城市——Café culture是一个很欧洲化的词汇,形容一种出门就能遇到熟人,随时可以在咖啡厅里社交、沟通的生活节奏。对Andrew Moore来说,匹兹堡就是计算机科学家们的巴黎、罗马、巴塞罗那。

Xtecher专访世界顶级计算机大师,聆听他的“小小梦想”

他与另外4人共享一间办公室。他说我们用的是H2H沟通,我们为此感到幸福。

H2H是指head to head,或是heart to heart,Xtecher猜想,在这间办公室里,两层含义都有。

Andrew Moore在英国伯恩茅斯(Bournemouth)出生、长大,大学就读于剑桥大学,念数学与计算机专业,1991年获得剑桥大学计算机博士学位。同年,他来到美国,以博士后身份进入麻省理工学院(MIT)Chris Atkeson教授的机器人实验室,进行机器人肢体运动方向的研究。1993年,他博士后毕业,加入CMU当教授,教学与研究领域是机器学习、强化学习和非参数回归算法。2000年,他被授予终身教职。2003年,他成为美国公民。2006年,他加入Google。2014年,他回到CMU,出任院长。

一个英国人来到美国,变成了美国人,或者准确点来说,他变成了一个匹兹堡人。当Trump出台备受争议的限制移民政策时,他义正言辞地写了一篇抗议短文——文章的链接现在仍挂在他个人主页首页的第一行:

“我自豪移民到了美国,我被这个国家的价值观、历史和世界领先的科技水平吸引……美国的科技水平之所以领先,是因为在这里可以自由地与不同的人相遇,交流不同的想法,我希望以后依旧能这样。”

一个崇尚交流和碰撞,有着社会责任心和未来眼光的科技人,还有留有一些英式冷幽默。比如他设置在个人主页上的“常见问题区”——

问题:计算机学院教什么?

答案:自己去看该死的网站(链接)!如果你想听一个简洁版本,好:计算机学院是CMU的一个教学部门。这里有一群热情、专注的人研究和学习计算机领域的方方面面,也致力于发现新规则、新算法、新设备、新产业、新用法。我们学院包括以下系所:……

问题:还有别的Andrew Moore吗?

答案:是的,有好几个Andrew Moore。计算机领域的Andrew Moore除了我以外,还有这3个:

Andrew Moore, 剑桥大学网络理论与侵入侦测专家

Andrew Moore, CMU软件工程中心研究员

Andrew Mor,机器人专家

幽默极了。

但让人印象最深的还是“常见问题”里的第一项,不是提问,而是个人宣言——

我人生最大的志向:

遇到能说出这句话的场合:“让我过去!我是计算机科学家!”