阿尔法狗新版本问世：无需人类知识

【观察者网综合】谷歌子公司DeepMind当地时间10月18日发布了一款新版本的AlphaGo程序，它能通过自学玩转多种游戏。这套系统名为“AlphaGo Zero”，它通过一种名为“强化学习”的机器学习技术，可以在与自己游戏中吸取教训。

DeepMind网站截图

该公司表示，AlphaGo Zero的研发与其前身有很大不同。研究团队不是根据已知的人类发展战略使AI智能化，而是经过短暂的训练使软件能够轻松击败此前的版本。 AlphaGo Zero能不断更新自己的游戏知识，越来越好。

据Deepmind介绍，AlphaGoZero采用了新的强化学习方法，从一个不知道围棋游戏规则的神经网络开始，然后通过将这个神经网络与强大的搜索算法结合，然后就可以实现自我对弈了。在这样的训练过程中，神经网络被更新和调整，并用于预测下一步落子和最终的输赢。

这一更新后的神经网络将再度与搜索算法组合，这一过程将不断重复，创建出一个新的、更强大版本的AlphaGoZero。在每次迭代中，系统的性能和自我对弈的质量均能够有部分提高。“日拱一卒，功不唐捐”，最终的神经网络越来越精确，AlphaGoZero也变得更强。

经过三天的不间断比赛，Zero能够击败去年已经战胜人类围棋世界冠军的AlphaGo版本。后者是去年击败了韩国选手李世石（Lee Sedol）的DeepMind软件。经过大约40天的训练（约2900万场自玩游戏），AlphaGo Zero击败了AlphaGo Master(今年早些时候击败了世界冠军柯洁)。事实上，AlphaGo Zero连续赢得了100场比赛，取得全胜战绩。

发布于：上海

加载中...

新浪网

阿尔法狗新版本问世：无需人类知识

观察者网

确定不再关注此人吗