alphago最新进展 (alphago现在进化到什么地步了)

alphago的最新进展是什么,alphago如何战胜人类

今天故事的主题是

「 人类真的太多余了么？」

狗又来虐我们了。

打败柯洁的AlphaGo Master退役之后，狗爸关于狗的研究并没有停止。今天凌晨，他们在《自然》杂志发表论文，说迄今最强最新的AlphaGo Zero，仅仅经过3天训练，就100比0击败了战胜李世石的AlphaGo，21天达到Master，40天碾压Master。

而且，完全自学，不借助任何人类的经验。

alphago的最新进展是什么,alphago如何战胜人类

柯洁惊呆了，“一个纯净、纯粹自我学习的alphago是最强的...对于alphago的自我进步来讲...人类太多余了。”

整个人类都惊呆了。

3天完爆旧狗，21天从无知到无敌。

AlphaGo Zero的纪录是惊人的。

1天，超越人类棋手水平；

3天，在100局比赛中100：0击败了上一版本的 AlphaGo，就是打败李世石的那个；

21天，达到Master水平，就是今年5月底在乌镇打败了世界上最优秀的棋士、世界第一的柯洁的那个Master；

40天，碾压Master。

alphago的最新进展是什么,alphago如何战胜人类

这样的速度此前从来没有过。

AlphaGo 2014年出世，到成为第一个无需让子即可在19路棋盘上击败围棋职业棋手的电脑围棋程序，用了至少1年零10个月。打败李世石，已经是2016年3月的事了。

AlphaGo Master比它厉害一点，2016年年底网络出道，一路厮杀，60战全胜。5个月后，正式在乌镇赢了柯洁。然后退役。

但AlphaGo Zero只用了21天。

AlphaGo Zero完全抛弃人类经验。自己跟自己下棋，每下一次都比之前更厉害。

狗爸团队DeepMind发表的论文，标题说明了一切，“不使用人类知识掌握围棋”。

alphago的最新进展是什么,alphago如何战胜人类

之前各个版本的AlphaGo，要先跟着上千个业余及专业棋手训练，学习围棋的规则与技巧。AlphaGo Zero 完全抛弃人类经验，从随机的对弈开始，自行学习规则。而且，每下一次，都比之前的自己更厉害一点。

根据DeepMind的论文，这是因为，AlphaGo Zero利用了一种新的强化学习方式。在这个过程中，AlphaGo Zero 成为自己的老师。

这个系统从零开始，最初只是一个完全不懂围棋的神经网络。然后，将这个神经网络跟一种强大的搜索算法结合，AlphaGo Zero就能自己和自己下棋了。它自我对弈的时候，神经网络就被调整、更新，以预测下一个落子位置以及对局的最终赢家。

更新后的神经网络又与搜索算法重新组合，进而创建一个新的、更强大的 AlphaGo Zero 版本。然后，再次重复对弈的过程。

alphago的最新进展是什么,alphago如何战胜人类

AlphaGo Zero 自我对弈训练的流程：a. 程序自己和自己下棋。b. AlphaGo Zero 中神经网络的训练。

所以，AlphaGo Zero的每一次自我对弈，就是一次迭代。每一次迭代，系统的性能都得到一次提高，自我对弈的质量也在提高。对弈，迭代，对弈，迭代……最终，神经网络的预测越来越准确，AlphaGo Zero也越来越强大。

不跟人类学习，不用站在巨人的肩膀就自己成了巨人，AlphaGo Zero也不再受限于人类知识的局限了。

甚至，从目前的结果来看，或许一直以来，是人类的智慧耽误了狗。

除了不向人类学习，AlphaGo Zero甚至，完全没有人类血统，没有一丁点来自人类的“基因”。也就是说，起初，它就是个完全不懂围棋的门外汉，是张婴儿般的白纸。

其实“婴儿般的白纸”这个说法并不准确，不准确在婴儿并不是白纸一张，婴儿有些与生俱来的本领。比如，偏爱高热量的食物，饿了就会哭以期得到注意。这是生物体在亿万年的演化中学来的。

但AlphaGo Zero是完完全全的白板。

它没有亿万年的演化，也没有先天的知识。此前的AlphaGo，它们的输入中，其实包含了少量人工设计的特征。但AlphaGo Zero不用，它只使用围棋棋盘上的黑子和白子作为输入。也就是说，只要告诉它棋盘，棋子和规则，它就可以自我进化。

哲学上有个著名观点，叫“白板理论”，是说婴儿生下来白板一块，通过不断训练、成长获得知识和智力。当现代科学证明婴儿并不是白板，这个理论将要被搁置的时候，AlphaGo Zero的成功，给了这个理论以实验上的可能性。

alphago的最新进展是什么,alphago如何战胜人类

AlphaGo Zero学到的知识

更可怕的是，AlphaGo Zero完成这些逆天成就，只需要比前几代AlphaGo更少的运算，和更少的训练。

3天，AlphaGo Zero 就100：0赢下了李世石版的狗AlphaGo Lee，这时，它的训练数据是490万次自我对弈。而AlphaGo Lee打败李世石的时候，它已经训练了好几个月，它的训练数据已经达到3000万盘比赛。

然后是装备上的碾压。

AlphaGo Zero维持运转，只用了1台机器和4个TPU，TPU是谷歌专为加速深层神经网络运算能力而研发的芯片。而李世石版AlphaGo则用了48个TPU。

alphago的最新进展是什么,alphago如何战胜人类

最大的功劳属于一个高级算法。

前面说过，AlphaGo Zero利用了一种新的强化学习方式。只要将它的神经网络跟一种强大的搜索算法结合，AlphaGo Zero就能自己和自己下棋。而且，DeepMind团队还发现，这么走着走着，AlphaGo Zero居然独立发现了游戏规则，并走出了新策略。

那么，这种神经网络与高级算法，究竟是如何结合工作的呢？

首先，跟以前版本相比，AlphaGo Zero只使用一个神经网络，而不是两个。

以前版本的 AlphaGo ，使用一个“策略网络”（policy network）选择下一个落子位置，一个“价值网络”（value network）来预测游戏的赢家。而在AlphaGo Zero 中，这两个网络是联合进行的。也因此，它能够更有效地进行训练和评估。

alphago的最新进展是什么,alphago如何战胜人类

AlphaGo Zero 和 AlphaGo Lee 的神经网络架构比较。“dual-res”和“sep-conv”分别表示在 AlphaGo Zero 和 AlphaGo Lee 中使用的神经网络架构。

算法上，AlphaGo Zero 不使用“走子演算”（rollout），也就是其他围棋程序惯常使用的快速、随机游戏，用来预测哪一方将从当前的棋局中获胜。相反，它依赖于高质量的神经网络来评估落子位置。

所有这些差异，提高了AlphaGo Zero系统的表现。但归根结底，是算法上的变化使得系统更为强大和高效。

AlphaGo Zero在算法上的成就意义重大。

AlphaGo项目负责人David Silver说，“人们一般认为机器学习就是大数据和海量计算，但是我们从AlphaGo Zero中发现，算法比所谓计算或数据可用性更重要。”

但这不是最重要的。

“我们希望利用这样的算法突破来帮助解决现实世界的各种紧迫问题，例如蛋白质折叠、减少能耗或新材料设计。”现在，AlphaGo Zero已经在做这方面的工作。

alphago的最新进展是什么,alphago如何战胜人类

半年前狗赢了柯洁，DeepMind就说，他们发明AlphaGo，并不是为了赢取围棋比赛，只是想为人工智能算法搭建一个有效的平台，最终目的是把这些算法应用到真实世界中，为社会服务。

那时候，他们就已经和英国国家医疗服务体系NHS合作，利用人工智能筛查癌症，进行医学诊断。

David Silver说，AlphaGo Zero实际上已经消除了人类知识的限制。但人类也不是完全无用。

美国的两位棋手，在《自然》杂志上对AlphaGo Zero的棋局做了点评，“它的开局和收官和专业棋手的下法并无区别，人类几千年的智慧结晶，看起来并非全错。但是中盘看起来则非常诡异。”

在这种对比之下，人类的智慧就像一个美丽的错误，是一个偶然。机器智慧看上去真的无敌了。

alphago的最新进展是什么,alphago如何战胜人类

人类真的没有可能了么？

中国科学院自动化研究所的王飞跃给了点不同的看法。他说，那种“看了AlphaGo Zero，就认为人类经验没用了，人工智能已经超过人类智力”的观点是不正确的。

因为，在所有“规则界定得非常清楚，而且规则中包含了所有信息”的任务中，机器或程序都应超过人类。而人工智能在应用中面临更多挑战的是那些规则不清，或者规则清楚但不包含所有信息的事情。

王飞跃说，真正智能的是AlphaGo Nothing，即人类，为定规则而生。而机器是为执行而造的。

但不可否认，机器的智慧已经可以自我进化了，人类的智慧还停留在经验积累。有人说，我们创造了神，自己却成为了狗。真的是这样么？人类的智慧可以进化么？

【END】

alphago的最新进展是什么,alphago如何战胜人类

欢迎关注有马体育微信公众号 ID:youmatiyu