ALphaGo进化，新一代ALphaGo Zero诞生

2017-10-19 11:04

据外媒报道，英国DeepMind团队的人工智能研究取得了新进展：他们开发出了新一代的围棋AI-ALphaGo Zero。使用了强化学习技术的ALphaGo Zero，棋力大幅度增长，可轻松击败曾经战胜柯洁、李世石的ALphaGo。

战胜柯洁之后，ALphaGo可以说在围棋界里已是“独孤求败”的境界了，几乎没有人类是它的对手。但是这并不代表ALphaGo就已经对围棋领域的认知达到了顶峰。因此，ALphaGo想要再上一层楼追求围棋知识的上限，显然只有它自己能成为自己的老师。

而在过去，AlphaGo都是使用业余和专业人类棋手的对局数据来进行训练。虽然使用人类棋手的数据可以让ALphaGo学习到人类的围棋技巧，但是人类专家的数据通常难以获得且很昂贵，加上人类并不是机器，难免会出现失误情况，失误产生的数据则可能降低ALphaGo的棋力。因此，ALphaGo Zero采用了强化学习技术，从随即对局开始，不依靠任何人类专家的对局数据或者人工监管，而是让其通过自我对弈来提升棋艺。

那么到底什么是强化学习技术呢？简单地说，强化学习就是让AI从中学习到能够获得最大回报的策略。AlphaGo Zero的强化学习主要包含两个部分，蒙特卡洛树搜索算法与神经网络算法。在这两种算法中，神经网络算法可根据当前棋面形势给出落子方案，以及预测当前形势下哪一方的赢面较大；蒙特卡洛树搜索算法则可以看成是一个对于当前落子步法的评价和改进工具，它能够模拟出AlphaGo Zero将棋子落在哪些地方可以获得更高的胜率。假如AlphaGoZero的神经网络算法计算出的落子方案与蒙特卡洛树搜索算法输出的结果越接近，则胜率越大，即回报越高。因此，每落一颗子，AlphaGo Zero都要优化神经网络算法中的参数，使其计算出的落子方案更接近蒙特卡洛树搜索算法的结果，同时尽量减少胜者预测的偏差。

ALphaGo进化，新一代ALphaGo Zero诞生